Новини Технологии
Юни 01, 2023

OpenAI: Новото моделиране на възнагражденията, контролирано от процеса, подобрява разсъжденията на AI

Накратко

OpenAIПроцесно контролираното моделиране на възнагражденията (PRM) има за цел да оцени междинните стъпки и мотивите на AI моделите, което води до подобрена производителност и показатели.

OpenAI отново привлече вниманието на общността на AI с революционната си работа в моделирането на възнаграждение, контролирано от процеса (лицата с намалена подвижност). Този иновативен подход има за цел да оцени междинните стъпки и мотивите на AI моделите, което води до подобрена производителност и показатели.

OpenAI: Ново моделиране на възнаграждение, контролирано от процеса, подобрява разсъжденията на AI
Credit: Metaverse Post (mpost.io)
ПРЕПОРЪЧВА:: ChatGPT Може да промени Уолстрийт, като направи търговията по-лесна

В традиционното обучение за укрепване от човешка обратна връзка (RLHF), обратната връзка за модела обикновено се дава въз основа на общия резултат, генериран от модела. Въпреки това, OpenAIНовото изследване на изследва идеята за оценка на отделните стъпки и процеси на разсъждение, предприети от модела. По този начин те могат да предоставят по-фини оценки и обратна връзка.

За да се справите с този проблем, OpenAI избрани математически задачи, които изискват множество действия. Отделно модел беше обучен да оценява ефективно междинните стъпки, действайки като критик, за да идентифицира всички погрешни преценки, направени от първичния модел. Този процес не само подобрява цялостната производителност, но също така подобрява показателите, използвани за оценка на възможностите на модела.

OpenAI постигна значителни крачки в тази област с пускането на щателно подбран набор от данни, състоящ се от 800,000 XNUMX маркирани решения. Всяка преценка представлява отделен етап от решаването на математически задачи и е създадена ръчно. Това подчертава нивото на отдаденост и ресурси OpenAI инвестира в разработването на висококачествени набори от данни, повдигайки въпроси относно обема на събраните данни за други области като програмиране или въпроси с отворен край.

Обучението на GPT-4, OpenAIнай-новата итерация на GPT серия, вече е в ход. Докато компонентът RLHF не е включен в настоящите експерименти, използва се модел на чист език. По-специално, OpenAI споменава, че има множество версии на GPT-4, като дори най-малката версия изисква значително по-малко ресурси за обучение – приблизително 200 пъти по-малко.

Интригуващ пример, споделен от OpenAI показва как моделът оценява всяка отделна стъпка за вземане на решение. В екранна снимка, включена в публикацията, грешките в решението са маркирани и им е даден най-ниският резултат за коректност, маркиран в червено.
Credit: OpenAI

Интригуващ пример, споделен от OpenAI показва как моделът оценява всяка отделна стъпка за вземане на решение. В екранна снимка, включена в публикацията, грешките в решението са маркирани и им е даден най-ниският резултат за коректност, маркиран в червено. Тази демонстрация подчертава способността на модела да разсъждава и предоставя ценна представа за процеса на вземане на решения. OpenAI също така предостави инструкции за маркиране, предлагайки възможности за краудсорсърите да допринесат и да се възползват от тяхната работа.

As OpenAI продължава да разширява границите на изследванията на AI, техният фокус върху разсъжденията на модела и моделирането на възнаграждение, контролирано от процеса, носи нови възможности за подобрени възможности на AI. Този последен пробив демонстрира техния ангажимент за подобряване на производителността на модела и отваря врати за по-нататъшен напредък в областта.

Прочетете повече за AI:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Преминаването на Доналд Тръмп към крипто: от противник към защитник и какво означава това за пазара на криптовалути в САЩ
Бизнес пазари Истории и рецензии Технологии
Преминаването на Доналд Тръмп към крипто: от противник към защитник и какво означава това за пазара на криптовалути в САЩ
Май 10, 2024
Layer3 ще пусне L3 токен това лято, разпределяйки 51% от общото предлагане на общността
пазари Новини Технологии
Layer3 ще пусне L3 токен това лято, разпределяйки 51% от общото предлагане на общността
Май 10, 2024
Последното предупреждение на Едуард Сноудън към биткойн разработчиците: „Направете поверителността приоритет на ниво протокол или рискувайте да я загубите
пазари Охрана Wiki Софтуер Истории и рецензии Технологии
Последното предупреждение на Едуард Сноудън към биткойн разработчиците: „Направете поверителността приоритет на ниво протокол или рискувайте да я загубите
Май 10, 2024
Захранван от оптимизъм Ethereum Layer 2 Network Mint ще пусне основната си мрежа на 15 май
Новини Технологии
Захранван от оптимизъм Ethereum Layer 2 Network Mint ще пусне основната си мрежа на 15 май
Май 10, 2024
CRYPTOMERIA LABS PTE. LTD.