Новостной репортаж Технологии
15 марта 2023

GPT-4 Превосходит GPT-3.5 Разнообразие контрольных показателей исследования

Коротко

Ассоциация GPT-4 достиг более высокого порога оценки, чем GPT-3.5 по различным критериям.

Это большое достижение, поскольку оно показывает, что машины не только обладают интеллектом, подобным человеческому, но и могут превзойти нас, что поднимает вопросы о будущем ИИ и его потенциальном влиянии на рынок труда.

GPT-4 значительно превосходит современные модели (SOTA), в том числе те, которые используют дополнительные протоколы обучения или дизайн, ориентированный на конкретные тесты, а также существующие большие языковые модели.

Ассоциация GPT-4 получил более высокие баллы, чем GPT-3.5 по различным критериям. Это крупный прорыв для машин, поскольку он доказывает, что теперь они могут не только решать проблемы, для которых изначально предназначались, но и делать это лучше, чем студенты университетов.

GPT-4 Превосходит GPT-3.5 по всем направлениям по различным критериям обучения

При рассмотрении этого результата следует учитывать несколько вещей. Во-первых, GPT-4 не проходил никакой специальной подготовки к этим экзаменам. Для этого использовались самые последние общедоступные тесты (в случае олимпиад и вопросов с бесплатным ответом AP) или закупались выпуски практических экзаменов 2022–2023 годов. Во-вторых, важно отметить, что GPT-4Результаты теста не обязательно отражают способности людей, сдающих тест, поскольку он работает на другом наборе принципов и алгоритмов.

Это большое достижение, т.к. это показывает что машины не только обладают интеллектом, подобным человеческому, но и могут превзойти нас. Это прокладывает путь к будущему, в котором машины смогут выполнять все более и более сложные задачи, что в конечном итоге приведет к будущему, в котором они смогут помогать нам в нашей повседневной жизни.

Ассоциация GPT-4Способность человечества превосходить людей в определенных задачах поднимает вопросы о будущем человечества. искусственный интеллект и его потенциальное влияние на рынок труда. Это также подчеркивает необходимость продолжения исследований и разработок в этой области, чтобы обеспечить этичное и ответственное использование ИИ.
Прочитайте больше: 5+ самых ожидаемых моделей ИИ для преобразования текста в изображение в 2023 году

GPT-4, например, сдает симулированный экзамен на адвоката, набрав балл среди 10% лучших сдающих тест; GPT-3Оценка 5 входила в нижние 10%. Это значительное улучшение в GPT-4Производительность обусловлена ​​большим объемом обучающих данных и улучшенной архитектурой. Ожидается, что он будет иметь широкий спектр применений в различных областях, включая обработку естественного языка и автоматическое письмо.

 
GPT-4 демонстрирует результаты человеческого уровня на большинстве профессиональных и академических экзаменов. Примечательно, что он сдал смоделированную версию экзамена на унифицированную аттестацию, набрав балл среди 10% лучших участников тестирования. Возможности модели на экзаменах, по-видимому, обусловлены в первую очередь процессом предварительного обучения и не подвергаются существенному влиянию RLHF. В вопросах с несколькими вариантами ответов обе базы GPT-4 Модель и модель RLHF в среднем показали одинаково хорошие результаты у всех разработчиков протестированного экзамена.

Большинство современных (SOTA) моделей, в том числе те, которые могут использовать дополнительные протоколы обучения или дизайн, ориентированный на тесты, а также существующие крупные языковые модели, значительно уступают GPT-4.

GPT-4производительность с точки зрения академических стандартов. Разработчики контрастируют GPT-4 с лучшим SOTA для нескольких выстрелов по оценке LM, а также с лучшим SOTA с тренировкой, ориентированной на конкретные тесты. За исключением ДРОП, GPT-4 превосходит все текущие LM по всем тестам и SOTA с обучением для конкретных тестов.

Внутри компании разработчики использовали GPT-4, который оказал значительное влияние на такие виды деятельности, как программирование, продажи, поддержка и модерация контента. Сейчас идет второй этап нашего метода согласования, поскольку разработчики используют его, чтобы помочь людям анализировать результаты ИИ.

Набор данных MMLU (Massive Multi-Task Language Understanding) содержит вопросы из очень широкого круга тем по пониманию языка в различных задачах (охватывающих 57 областей, включая математику, биологию, право, социальные и гуманитарные науки и т. д.). На вопрос возможны четыре варианта ответа, один из которых правильный. То есть случайное угадывание показывает результат 25% правильных ответов. См. рисунок ниже для примеров вопросов и их сложности. Средний человек-маркер (то есть это не ученый, не профессор — обычный человек, подрабатывающий разметкой) правильно отвечает на 35% вопросов; однако эксперты могут достичь оценки +/- 90%.

Производительность GPT-4 на разных языках по сравнению с более ранними моделями на английском языке на MMLU. GPT-4 превосходит англоязычные характеристики существующих языковых моделей для подавляющего большинства исследованных языков, включая языки с ограниченными ресурсами, такие как латышский, валлийский и суахили.
Прочитайте больше: 5 причин использовать Bing с искусственным интеллектом вместо Google

Первоначально весь набор данных был на английском языке. А что, если вопросы и ответы будут переведены на другие языки, особенно менее распространенные? Будет ли модель им как-то работать? В этом тесте для перевода использовалась служба Microsoft Azure Translate. Переводы не идеальны; в некоторых случаях важная информация теряется. Однако даже в этом случае GPT-4 хорошо работает на других языках. В переведенных версиях MMLU GPT-4 превосходит уровень английского других крупных моделей (включая Google) по 24 из 26 исследованных языков.

Более того, GPT-4 работает лучше на редких языках, чем ChatGPT сделал на английском(ChatGPT получил оценку 70.1%, тогда как оценка новой модели для тайского языка составила 71.8%). Оценка за тест по английскому языку была самой высокой: GPT-4 производительность на 10 % выше, чем у других моделей, включая самую крупную PaLM от Google. Она набрала оценку 86.4%, а группа экспертов — 90%.

  • К лету 2023 года ИИ может выйти на новый уровень мощности благодаря ChatGPT, чат-бот, который использует GPT-4 алгоритм и Превосходит GPT-3 в 570 раз. Различные элементы способствуют ChatGPT, в том числе его дизайн, который должен быть более «человеческим», и использование передовых технологий интеллектуального анализа данных и обработки естественного языка для повышения его эффективности и точности.
  • Microsoft и OpenAI объявили о возобновлении сотрудничества и планах в январе использовать в поиске Bing возможности поиска с использованием искусственного интеллекта. Очень сложный GPTЗамена модели 3.5, GPT4, только что был запущен, и это может значительно улучшить возможности поиска Bing для понимания запросов на естественном языке и предоставления более точных результатов. Это хорошая идея иметь хороший план резервного копирования на случай, если что-то пойдет не так.

Читайте больше связанных новостей:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Безумие DOGE: анализ недавнего роста стоимости Dogecoin (DOGE)

Криптовалютная индустрия стремительно расширяется, и мем-монеты готовятся к значительному подъему. Догекоин (DOGE), ...

Узнать больше

Эволюция контента, созданного искусственным интеллектом, в Метавселенной

Появление генеративного ИИ-контента — одно из самых интересных событий в виртуальной среде…

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Лучшие предложения этой недели, крупные инвестиции в искусственный интеллект, информационные технологии, Web3и Крипто (22-26.04)
Digest Бизнес Области применения: Технологии
Лучшие предложения этой недели, крупные инвестиции в искусственный интеллект, информационные технологии, Web3и Крипто (22-26.04)
26 апреля 2024
Виталик Бутерин прокомментировал централизацию PoW, отметив, что это был временный этап до PoS
Новостной репортаж Технологии
Виталик Бутерин прокомментировал централизацию PoW, отметив, что это был временный этап до PoS
26 апреля 2024
Offchain Labs сообщает об обнаружении двух критических уязвимостей в доказательствах мошенничества OP Stack от Optimism
Новостной репортаж Software Технологии
Offchain Labs сообщает об обнаружении двух критических уязвимостей в доказательствах мошенничества OP Stack от Optimism
26 апреля 2024
Открытый рынок Dymension для обеспечения ликвидности от RollApps eIBC запускается в основной сети
Новостной репортаж Технологии
Открытый рынок Dymension для обеспечения ликвидности от RollApps eIBC запускается в основной сети 
26 апреля 2024
CRYPTOMERIA LABS PTE. ООО