Новостной репортаж Технологии
16 марта 2023

OpenAI Анонсирует Evals, программную платформу с открытым исходным кодом для оценки моделей ИИ

Коротко

OpenAI надеется получить краудсорсинговые тесты для оценки моделей ИИ, таких как GPT-4.

Компания по обработке платежей Stripe уже использовала Evals для измерения точности своих GPT- мощный инструмент документации.

OpenAI будет предоставлять GPT-4 доступ в течение ограниченного времени для тех, кто вносит высококачественные оценки.

OpenAI Анонсирует Evals, программную платформу с открытым исходным кодом для оценки моделей ИИ

Наряду с объявлением GPT-4, OpenAI анонсировала программную среду с открытым исходным кодом OpenAI Оценки. Этот инструмент предназначен для создания и запуска тестов, которые оценивают производительность таких моделей, как GPT-4. С Эвалсом, OpenAI надеется получить краудсорсинговые тесты для тестирования моделей ИИ. 

«Мы используем Evals для управления разработкой наших моделей (как для выявления недостатков, так и для предотвращения регрессий), а наши пользователи могут применять его для отслеживания производительности в разных версиях моделей (которые теперь будут выходить регулярно) и интеграции продуктов», — поясняет компания. а блоге.

Stripe, популярная компания по обработке платежей, уже использовала Evals для дополнения своих оценок людьми и измерения точности их GPT- мощный инструмент документации.

Разработчики могут использовать Eval для создания и запуска оценок, которые:

  • Используйте наборы данных для создания подсказок,
  • Измерьте качество завершений, предоставленных OpenAI моделькачества
  • Сравните производительность для разных наборов данных и моделей.

Благодаря открытому исходному коду разработчики также могут писать и добавлять пользовательский Eval так же как и сигнал несколько шаблонов которые могут соответствовать различным критериям. Компания включила шаблоны, которые оказались наиболее полезными внутри компании, в том числе шаблон для «оценок с оценкой модели», который GPT-4 можно использовать для проверки собственной работы. В качестве примера для подражания компания создала программу оценки логических задач, содержащую десять подсказок, в которых GPT-4 не удается.

Evals также совместим с реализацией существующих тестов, включая несколько ноутбуков, реализующих академические тесты, и несколько вариантов интеграции небольших подмножеств CoQA.

Хотя разработчикам не будут платить за участие в Eval, OpenAI будет предоставлять GPT-4 доступ в течение ограниченного времени тем, кто вносит «высококачественные оценки». 

Анонс Evals приходит после OpenAI недавно сказал, она прекратит использовать данные, отправленные клиентами через свой API, для обучения или улучшения своих моделей, если клиенты не решат согласиться. Компания присоединяется к Meta в краудсорсинговых тестах, поскольку последняя ставит перед людьми задачу «найти состязательные примеры, которые обманывают текущее состояние рынка». -арт-моделей» для своих DynaBench .

Прочитайте больше:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Синди работает журналистом в Metaverse Post, охватывающие темы, связанные с web3, NFT, метавселенная и ИИ, с акцентом на интервью с Web3 игроки отрасли. Она поговорила с более чем 30 руководителями высшего звена, и их число продолжает расти, поделившись с читателями их ценной информацией. Синди родом из Сингапура, сейчас живет в Тбилиси, Грузия. Она имеет степень бакалавра в области коммуникаций и медиа-исследований Университета Южной Австралии и десятилетний опыт журналистики и писательской деятельности. Свяжитесь с ней через [электронная почта защищена] с презентациями для прессы, объявлениями и возможностями для интервью.

Другие статьи
Синди Тан
Синди Тан

Синди работает журналистом в Metaverse Post, охватывающие темы, связанные с web3, NFT, метавселенная и ИИ, с акцентом на интервью с Web3 игроки отрасли. Она поговорила с более чем 30 руководителями высшего звена, и их число продолжает расти, поделившись с читателями их ценной информацией. Синди родом из Сингапура, сейчас живет в Тбилиси, Грузия. Она имеет степень бакалавра в области коммуникаций и медиа-исследований Университета Южной Австралии и десятилетний опыт журналистики и писательской деятельности. Свяжитесь с ней через [электронная почта защищена] с презентациями для прессы, объявлениями и возможностями для интервью.

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Безумие DOGE: анализ недавнего роста стоимости Dogecoin (DOGE)

Криптовалютная индустрия стремительно расширяется, и мем-монеты готовятся к значительному подъему. Догекоин (DOGE), ...

Узнать больше

Эволюция контента, созданного искусственным интеллектом, в Метавселенной

Появление генеративного ИИ-контента — одно из самых интересных событий в виртуальной среде…

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Лучшие предложения этой недели, крупные инвестиции в искусственный интеллект, информационные технологии, Web3и Крипто (22-26.04)
Digest Бизнес Области применения: Технологии
Лучшие предложения этой недели, крупные инвестиции в искусственный интеллект, информационные технологии, Web3и Крипто (22-26.04)
26 апреля 2024
Виталик Бутерин прокомментировал централизацию PoW, отметив, что это был временный этап до PoS
Новостной репортаж Технологии
Виталик Бутерин прокомментировал централизацию PoW, отметив, что это был временный этап до PoS
26 апреля 2024
Offchain Labs сообщает об обнаружении двух критических уязвимостей в доказательствах мошенничества OP Stack от Optimism
Новостной репортаж Software Технологии
Offchain Labs сообщает об обнаружении двух критических уязвимостей в доказательствах мошенничества OP Stack от Optimism
26 апреля 2024
Открытый рынок Dymension для обеспечения ликвидности от RollApps eIBC запускается в основной сети
Новостной репортаж Технологии
Открытый рынок Dymension для обеспечения ликвидности от RollApps eIBC запускается в основной сети 
26 апреля 2024
CRYPTOMERIA LABS PTE. ООО