Новини Технологии
Октомври 27, 2023

Репликирани изследователи OpenAIРаботата на въз основа на оптимизация на проксималната политика (PPO) в RLHF

Обучението за подсилване от човешка обратна връзка (RLHF) е неразделна част от системи за обучение като ChatGPT, и се разчита на специализирани методи за постигане на успех. Един от тези методи, Proximal Policy Optimization (PPO), първоначално беше замислена в рамките на стените на OpenAI през 2017 г. На пръв поглед PPO се откроява с обещанието си за простота на изпълнение и сравнително малък брой хиперпараметри, необходими за фина настройка на модела. Както се казва обаче, дяволът е в детайлите.

Репликирани изследователи OpenAIРаботата на въз основа на оптимизация на проксималната политика (PPO) в RLHF

Наскоро публикация в блог, озаглавена „37-те подробности за изпълнението на оптимизацията на проксималната политика” хвърли светлина върху тънкостите на PPO (подготвен за конференцията на ICLR). Самото име подсказва за предизвикателствата, пред които е изправено прилагането на този уж лесен метод. Учудващо, на авторите им отне три години, за да съберат цялата необходима информация и да възпроизведат резултатите.

Кодът в OpenAI хранилището претърпя значителни промени между версиите, някои аспекти останаха необяснени, а особеностите, които се появиха като грешки, по някакъв начин дадоха резултати. Сложността на PPO става очевидна, когато се задълбочите в подробностите, а за тези, които се интересуват от задълбочено разбиране или самоусъвършенстване, има налично силно препоръчително видео резюме.

Но историята не свършва дотук. Същите автори решиха да преразгледат openai/lm-human-preferences хранилище от 2019 г., който изигра решаваща роля при фината настройка на езиковите модели въз основа на човешките предпочитания, използвайки PPO. Това хранилище бележи ранните разработки на ChatGPT. Скорошната публикация в блога, „Подробностите за изпълнение на N на RLHF с PPO”, точно копира OpenAIработа на, но използва PyTorch и модерни библиотеки вместо остарелия TensorFlow. Този преход дойде със собствен набор от предизвикателства, като например разлики в внедряването на оптимизатора на Adam между рамки, което прави невъзможно възпроизвеждането на обучение без корекции.

Може би най-интригуващият аспект на това пътуване е стремежът да се проведат експерименти върху специфични GPU настройки, за да се получат оригинални показатели и криви на обучение. Това е пътуване, изпълнено с предизвикателства, от ограниченията на паметта на различни типове GPU до миграцията на OpenAI набори от данни между съоръженията за съхранение.

В заключение, изследването на оптимизирането на проксималната политика (PPO) в обучението за укрепване от човешка обратна връзка (RLHF) разкрива завладяващ свят на сложност.

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Side Protocol стартира Incentivized Testnet и въвежда система за вътрешни точки, позволяваща на потребителите да печелят SIDE точки
пазари Новини Технологии
Side Protocol стартира Incentivized Testnet и въвежда система за вътрешни точки, позволяваща на потребителите да печелят SIDE точки
Май 9, 2024
Web3 и крипто събития през май 2024 г.: Проучване на нови технологии и нововъзникващи тенденции в блокчейн и DeFi
резюме Бизнес пазари Технологии
Web3 и крипто събития през май 2024 г.: Проучване на нови технологии и нововъзникващи тенденции в блокчейн и DeFi
Май 9, 2024
Notcoin ще стартира на OKX Jumpstart, предлага 1.25% от общото предлагане на токени за копаене
пазари Новини Технологии
Notcoin ще стартира на OKX Jumpstart, предлага 1.25% от общото предлагане на токени за копаене
Май 9, 2024
Puffer Finance пуска своята основна мрежа, подобрява включването на оператор на възел за децентрализация на мрежата
Новини Технологии
Puffer Finance пуска своята основна мрежа, подобрява включването на оператор на възел за децентрализация на мрежата
Май 9, 2024
CRYPTOMERIA LABS PTE. LTD.