Репликирани изследователи OpenAIРаботата на въз основа на оптимизация на проксималната политика (PPO) в RLHF
Обучението за подсилване от човешка обратна връзка (RLHF) е неразделна част от системи за обучение като ChatGPT, и се разчита на специализирани методи за постигане на успех. Един от тези методи, Proximal Policy Optimization (PPO), първоначално беше замислена в рамките на стените на OpenAI през 2017 г. На пръв поглед PPO се откроява с обещанието си за простота на изпълнение и сравнително малък брой хиперпараметри, необходими за фина настройка на модела. Както се казва обаче, дяволът е в детайлите.
Наскоро публикация в блог, озаглавена „37-те подробности за изпълнението на оптимизацията на проксималната политика” хвърли светлина върху тънкостите на PPO (подготвен за конференцията на ICLR). Самото име подсказва за предизвикателствата, пред които е изправено прилагането на този уж лесен метод. Учудващо, на авторите им отне три години, за да съберат цялата необходима информация и да възпроизведат резултатите.
Кодът в OpenAI хранилището претърпя значителни промени между версиите, някои аспекти останаха необяснени, а особеностите, които се появиха като грешки, по някакъв начин дадоха резултати. Сложността на PPO става очевидна, когато се задълбочите в подробностите, а за тези, които се интересуват от задълбочено разбиране или самоусъвършенстване, има налично силно препоръчително видео резюме.
Но историята не свършва дотук. Същите автори решиха да преразгледат openai/lm-human-preferences хранилище от 2019 г., който изигра решаваща роля при фината настройка на езиковите модели въз основа на човешките предпочитания, използвайки PPO. Това хранилище бележи ранните разработки на ChatGPT. Скорошната публикация в блога, „Подробностите за изпълнение на N на RLHF с PPO”, точно копира OpenAIработа на, но използва PyTorch и модерни библиотеки вместо остарелия TensorFlow. Този преход дойде със собствен набор от предизвикателства, като например разлики в внедряването на оптимизатора на Adam между рамки, което прави невъзможно възпроизвеждането на обучение без корекции.
Може би най-интригуващият аспект на това пътуване е стремежът да се проведат експерименти върху специфични GPU настройки, за да се получат оригинални показатели и криви на обучение. Това е пътуване, изпълнено с предизвикателства, от ограниченията на паметта на различни типове GPU до миграцията на OpenAI набори от данни между съоръженията за съхранение.
В заключение, изследването на оптимизирането на проксималната политика (PPO) в обучението за укрепване от човешка обратна връзка (RLHF) разкрива завладяващ свят на сложност.
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.