OpenAI: Новото моделиране на възнагражденията, контролирано от процеса, подобрява разсъжденията на AI
Накратко
OpenAIПроцесно контролираното моделиране на възнагражденията (PRM) има за цел да оцени междинните стъпки и мотивите на AI моделите, което води до подобрена производителност и показатели.
OpenAI отново привлече вниманието на общността на AI с революционната си работа в моделирането на възнаграждение, контролирано от процеса (лицата с намалена подвижност). Този иновативен подход има за цел да оцени междинните стъпки и мотивите на AI моделите, което води до подобрена производителност и показатели.
В традиционното обучение за укрепване от човешка обратна връзка (RLHF), обратната връзка за модела обикновено се дава въз основа на общия резултат, генериран от модела. Въпреки това, OpenAIНовото изследване на изследва идеята за оценка на отделните стъпки и процеси на разсъждение, предприети от модела. По този начин те могат да предоставят по-фини оценки и обратна връзка.
За да се справите с този проблем, OpenAI избрани математически задачи, които изискват множество действия. Отделно модел беше обучен да оценява ефективно междинните стъпки, действайки като критик, за да идентифицира всички погрешни преценки, направени от първичния модел. Този процес не само подобрява цялостната производителност, но също така подобрява показателите, използвани за оценка на възможностите на модела.
OpenAI постигна значителни крачки в тази област с пускането на щателно подбран набор от данни, състоящ се от 800,000 XNUMX маркирани решения. Всяка преценка представлява отделен етап от решаването на математически задачи и е създадена ръчно. Това подчертава нивото на отдаденост и ресурси OpenAI инвестира в разработването на висококачествени набори от данни, повдигайки въпроси относно обема на събраните данни за други области като програмиране или въпроси с отворен край.
Обучението на GPT-4, OpenAIнай-новата итерация на GPT серия, вече е в ход. Докато компонентът RLHF не е включен в настоящите експерименти, използва се модел на чист език. По-специално, OpenAI споменава, че има множество версии на GPT-4, като дори най-малката версия изисква значително по-малко ресурси за обучение – приблизително 200 пъти по-малко.
Интригуващ пример, споделен от OpenAI показва как моделът оценява всяка отделна стъпка за вземане на решение. В екранна снимка, включена в публикацията, грешките в решението са маркирани и им е даден най-ниският резултат за коректност, маркиран в червено. Тази демонстрация подчертава способността на модела да разсъждава и предоставя ценна представа за процеса на вземане на решения. OpenAI също така предостави инструкции за маркиране, предлагайки възможности за краудсорсърите да допринесат и да се възползват от тяхната работа.
As OpenAI продължава да разширява границите на изследванията на AI, техният фокус върху разсъжденията на модела и моделирането на възнаграждение, контролирано от процеса, носи нови възможности за подобрени възможности на AI. Този последен пробив демонстрира техния ангажимент за подобряване на производителността на модела и отваря врати за по-нататъшен напредък в областта.
- Наскоро Съобщава се, че Apple ограничава използването на служителите ChatGPT и други задвижвани от AI чатботове поради опасения за поверителността. The Wall Street Journal съобщи, че работниците също са ограничени да използват AI инструмента Copilot на GitHub, който позволява на потребителите автоматично да пишат софтуерен код. ChatGPT е базиран на AI чатбот, разработен от OpenAI, който беше критикуван за нарушаване на поверителността.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.