Новостной репортаж Технологии
16 марта 2023

OpenAI Анонсирует Evals, программную платформу с открытым исходным кодом для оценки моделей ИИ

Коротко

OpenAI надеется получить краудсорсинговые тесты для оценки моделей ИИ, таких как GPT-4.

Компания по обработке платежей Stripe уже использовала Evals для измерения точности своих GPT- мощный инструмент документации.

OpenAI будет предоставлять GPT-4 доступ в течение ограниченного времени для тех, кто вносит высококачественные оценки.

OpenAI Анонсирует Evals, программную платформу с открытым исходным кодом для оценки моделей ИИ

Наряду с объявлением GPT-4, OpenAI анонсировала программную среду с открытым исходным кодом OpenAI Оценки. Этот инструмент предназначен для создания и запуска тестов, которые оценивают производительность таких моделей, как GPT-4. С Эвалсом, OpenAI надеется получить краудсорсинговые тесты для тестирования моделей ИИ. 

«Мы используем Evals для управления разработкой наших моделей (как для выявления недостатков, так и для предотвращения регрессий), а наши пользователи могут применять его для отслеживания производительности в разных версиях моделей (которые теперь будут выходить регулярно) и интеграции продуктов», — поясняет компания. а блоге.

Stripe, популярная компания по обработке платежей, уже использовала Evals для дополнения своих оценок людьми и измерения точности их GPT- мощный инструмент документации.

Разработчики могут использовать Eval для создания и запуска оценок, которые:

  • Используйте наборы данных для создания подсказок,
  • Измерьте качество завершений, предоставленных OpenAI модельи
  • Сравните производительность для разных наборов данных и моделей.

Благодаря открытому исходному коду разработчики также могут писать и добавлять пользовательский Eval так же как и сигнал несколько шаблонов которые могут соответствовать различным критериям. Компания включила шаблоны, которые оказались наиболее полезными внутри компании, в том числе шаблон для «оценок с оценкой модели», который GPT-4 можно использовать для проверки собственной работы. В качестве примера для подражания компания создала программу оценки логических задач, содержащую десять подсказок, в которых GPT-4 не удается.

Evals также совместим с реализацией существующих тестов, включая несколько ноутбуков, реализующих академические тесты, и несколько вариантов интеграции небольших подмножеств CoQA.

Хотя разработчикам не будут платить за участие в Eval, OpenAI будет предоставлять GPT-4 доступ в течение ограниченного времени тем, кто вносит «высококачественные оценки». 

Анонс Evals приходит после OpenAI недавно сказал, она прекратит использовать данные, отправленные клиентами через свой API, для обучения или улучшения своих моделей, если клиенты не решат согласиться. Компания присоединяется к Meta в краудсорсинговых тестах, поскольку последняя ставит перед людьми задачу «найти состязательные примеры, которые обманывают текущее состояние рынка». -арт-моделей» для своих DynaBench .

Прочитайте больше:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Синди работает журналистом в Metaverse Post, охватывающие темы, связанные с web3, NFT, метавселенная и ИИ, с акцентом на интервью с Web3 игроки отрасли. Она поговорила с более чем 30 руководителями высшего звена, и их число продолжает расти, поделившись с читателями их ценной информацией. Синди родом из Сингапура, сейчас живет в Тбилиси, Грузия. Она имеет степень бакалавра в области коммуникаций и медиа-исследований Университета Южной Австралии и десятилетний опыт журналистики и писательской деятельности. Свяжитесь с ней через [электронная почта защищена] с презентациями для прессы, объявлениями и возможностями для интервью.

Другие статьи
Синди Тан
Синди Тан

Синди работает журналистом в Metaverse Post, охватывающие темы, связанные с web3, NFT, метавселенная и ИИ, с акцентом на интервью с Web3 игроки отрасли. Она поговорила с более чем 30 руководителями высшего звена, и их число продолжает расти, поделившись с читателями их ценной информацией. Синди родом из Сингапура, сейчас живет в Тбилиси, Грузия. Она имеет степень бакалавра в области коммуникаций и медиа-исследований Университета Южной Австралии и десятилетний опыт журналистики и писательской деятельности. Свяжитесь с ней через [электронная почта защищена] с презентациями для прессы, объявлениями и возможностями для интервью.

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Инфраструктурный протокол на базе ZKP ZKBase представляет дорожную карту и планирует запустить тестовую сеть в мае
Новостной репортаж Технологии
Инфраструктурный протокол на базе ZKP ZKBase представляет дорожную карту и планирует запустить тестовую сеть в мае
9 мая 2024
BLOCKCHANCE и CONF3RENCE объединяются для крупнейшего в Германии Web3 Конференция в Дортмунде
Бизнес Области применения: Software Истории и обзоры Технологии
BLOCKCHANCE и CONF3RENCE объединяются для крупнейшего в Германии Web3 Конференция в Дортмунде
9 мая 2024
NuLink запускается на Bybit Web3 Платформа IDO. Фаза подписки продлена до 13 мая
Области применения: Новостной репортаж Технологии
NuLink запускается на Bybit Web3 Платформа IDO. Фаза подписки продлена до 13 мая
9 мая 2024
UXLINK и Binance сотрудничают в новой кампании, предлагая пользователям 20 миллионов баллов UXUY и Airdrop Награды
Области применения: Новостной репортаж Технологии
UXLINK и Binance сотрудничают в новой кампании, предлагая пользователям 20 миллионов баллов UXUY и Airdrop Награды
9 мая 2024
CRYPTOMERIA LABS PTE. ООО