GPT-4 Превосходит GPT-3.5 Разнообразие контрольных показателей исследования
Коротко
Ассоциация GPT-4 достиг более высокого порога оценки, чем GPT-3.5 по различным критериям.
Это большое достижение, поскольку оно показывает, что машины не только обладают интеллектом, подобным человеческому, но и могут превзойти нас, что поднимает вопросы о будущем ИИ и его потенциальном влиянии на рынок труда.
GPT-4 значительно превосходит современные модели (SOTA), в том числе те, которые используют дополнительные протоколы обучения или дизайн, ориентированный на конкретные тесты, а также существующие большие языковые модели.
Ассоциация GPT-4 получил более высокие баллы, чем GPT-3.5 по различным критериям. Это крупный прорыв для машин, поскольку он доказывает, что теперь они могут не только решать проблемы, для которых изначально предназначались, но и делать это лучше, чем студенты университетов.
При рассмотрении этого результата следует учитывать несколько вещей. Во-первых, GPT-4 не проходил никакой специальной подготовки к этим экзаменам. Для этого использовались самые последние общедоступные тесты (в случае олимпиад и вопросов с бесплатным ответом AP) или закупались выпуски практических экзаменов 2022–2023 годов. Во-вторых, важно отметить, что GPT-4Результаты теста не обязательно отражают способности людей, сдающих тест, поскольку он работает на другом наборе принципов и алгоритмов.
Это большое достижение, т.к. это показывает что машины не только обладают интеллектом, подобным человеческому, но и могут превзойти нас. Это прокладывает путь к будущему, в котором машины смогут выполнять все более и более сложные задачи, что в конечном итоге приведет к будущему, в котором они смогут помогать нам в нашей повседневной жизни.
Прочитайте больше: 5+ самых ожидаемых моделей ИИ для преобразования текста в изображение в 2023 году |
GPT-4, например, сдает симулированный экзамен на адвоката, набрав балл среди 10% лучших сдающих тест; GPT-3Оценка 5 входила в нижние 10%. Это значительное улучшение в GPT-4Производительность обусловлена большим объемом обучающих данных и улучшенной архитектурой. Ожидается, что он будет иметь широкий спектр применений в различных областях, включая обработку естественного языка и автоматическое письмо.
Большинство современных (SOTA) моделей, в том числе те, которые могут использовать дополнительные протоколы обучения или дизайн, ориентированный на тесты, а также существующие крупные языковые модели, значительно уступают GPT-4.
Внутри компании разработчики использовали GPT-4, который оказал значительное влияние на такие виды деятельности, как программирование, продажи, поддержка и модерация контента. Сейчас идет второй этап нашего метода согласования, поскольку разработчики используют его, чтобы помочь людям анализировать результаты ИИ.
Набор данных MMLU (Massive Multi-Task Language Understanding) содержит вопросы из очень широкого круга тем по пониманию языка в различных задачах (охватывающих 57 областей, включая математику, биологию, право, социальные и гуманитарные науки и т. д.). На вопрос возможны четыре варианта ответа, один из которых правильный. То есть случайное угадывание показывает результат 25% правильных ответов. См. рисунок ниже для примеров вопросов и их сложности. Средний человек-маркер (то есть это не ученый, не профессор — обычный человек, подрабатывающий разметкой) правильно отвечает на 35% вопросов; однако эксперты могут достичь оценки +/- 90%.
Прочитайте больше: 5 причин использовать Bing с искусственным интеллектом вместо Google |
Первоначально весь набор данных был на английском языке. А что, если вопросы и ответы будут переведены на другие языки, особенно менее распространенные? Будет ли модель им как-то работать? В этом тесте для перевода использовалась служба Microsoft Azure Translate. Переводы не идеальны; в некоторых случаях важная информация теряется. Однако даже в этом случае GPT-4 хорошо работает на других языках. В переведенных версиях MMLU GPT-4 превосходит уровень английского других крупных моделей (включая Google) по 24 из 26 исследованных языков.
Более того, GPT-4 работает лучше на редких языках, чем ChatGPT сделал на английском(ChatGPT получил оценку 70.1%, тогда как оценка новой модели для тайского языка составила 71.8%). Оценка за тест по английскому языку была самой высокой: GPT-4 производительность на 10 % выше, чем у других моделей, включая самую крупную PaLM от Google. Она набрала оценку 86.4%, а группа экспертов — 90%.
- К лету 2023 года ИИ может выйти на новый уровень мощности благодаря ChatGPT, чат-бот, который использует GPT-4 алгоритм и Превосходит GPT-3 в 570 раз. Различные элементы способствуют ChatGPT, в том числе его дизайн, который должен быть более «человеческим», и использование передовых технологий интеллектуального анализа данных и обработки естественного языка для повышения его эффективности и точности.
- Microsoft и OpenAI объявили о возобновлении сотрудничества и планах в январе использовать в поиске Bing возможности поиска с использованием искусственного интеллекта. Очень сложный GPTЗамена модели 3.5, GPT4, только что был запущен, и это может значительно улучшить возможности поиска Bing для понимания запросов на естественном языке и предоставления более точных результатов. Это хорошая идея иметь хороший план резервного копирования на случай, если что-то пойдет не так.
Читайте больше связанных новостей:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.