Новостной репортаж Технологии
Июль 20, 2023

Исследование Стэнфорда подтверждает GPT-4 Становится тупее

Коротко

В исследовании Матея Захарии и его команды из Стэнфорда и Калифорнийского университета в Беркли сравнивались результаты GPT-4 и ChatGPT для устранения опасений пользователей по поводу эффективности модели.

В ходе исследования модели оценивались по четырем конкретным задачам: математике, кодированию, чувствительности и визуальному мышлению.

Матей Захария и его команда из Стэнфорда и Калифорнийского университета в Беркли провела исследование который сравнивал производительность GPT-4 в ChatGPT. Это расследование было направлено на устранение опасений пользователей по поводу снижения эффективности модели.

Исследование Стэнфорда подтверждает GPT-4 Становится тупее
Кредит: Metaverse Post
Похожие страницы:: GPT-4 против GPT-3: Что может предложить новая модель?

Исследователи разработали исследование для оценки моделей по четырем конкретным задачам. Эти задачи включали:

  • Математика: способность модели определять, является ли заданное число простым или составным.
  • Кодирование: оценка способности модели генерировать осмысленный и функциональный код.
  • Чувствительность: анализ ответов модели на вопросы с потенциально «токсичным» содержанием.
  • Визуальное мышление: проверка способности модели решать проблемы, связанные с визуальными паттернами, с использованием эталонного теста ARC. Участники должны были определить закономерности в наборе изображений и применить их для решения нового примера.

В области математики оба GPT-4 версии, мартовская и июньская, продемонстрировали неизменную точность в определении простых и составных чисел. Модели продемонстрировали умение выполнять эти расчеты, обеспечивая надежные результаты.

Переходим к кодированию. GPT-4 продемонстрировал улучшенную способность генерировать осмысленный и функциональный код по сравнению со своими предшественниками. Возможности модели по генерации кода оказались многообещающими, предлагая потенциальные преимущества разработчикам и программистам.

Что касается чувствительности, в исследовании оценивались ответы моделей на вопросы, содержащие потенциально вредный или оскорбительный контент. GPT-4 продемонстрировали расширенный анализ чувствительности и продемонстрировали улучшенную способность предоставлять соответствующие ответы в таких контекстах. Это означает позитивный шаг вперед в решении проблем пользователей по поводу потенциально проблемных результатов.

Наконец, задачи визуального рассуждения, основанные на тесте ARC, были успешно выполнены обоими GPT-4 версии. Модели эффективно идентифицировали закономерности в наборах изображений и продемонстрировали способность применять эти закономерности для решения новых примеров. Это демонстрирует их способность к визуальному пониманию и рассуждению.

Результаты показывают, что GPT-4 продемонстрировало снижение точности: лишь немногим более 2% правильных ответов. Важно отметить, что этот конкретный тест в первую очередь оценивает способность модели запоминать данные, а не демонстрирует присущие ей математические способности. Задача вращается вокруг вызова памяти, поскольку в модели отсутствует возможность проверки вычислений и вывода, особенно когда речь идет о простых числах.

ChatGPT продемонстрировали значительный рост показателей производительности к июню, продемонстрировав значительное улучшение более чем в десять раз. Хотя исследование не углублялось в конкретные факторы, способствующие этому улучшению, оно подчеркивает ChatGPTпрогресс в математических рассуждениях и возможностях решения проблем.

Исследование не оценивало качество или правильность сгенерированного кода. Вместо этого оказалось, что модели демонстрируют более «нестандартное» поведение, предлагая фрагменты кода, не гарантируя их функциональной точности.
Похожие страницы:: 10+ лучших AI Photo Enhancers в 2023 году

Качество GPT-4 и ChatGPT был допрошен после анализа их способностей программирования. Однако при ближайшем рассмотрении обнаруживаются некоторые увлекательные нюансы, противоречащие первому впечатлению.

Авторы не выполняли и не проверяли правильность кода; их оценка была основана исключительно на его достоверности как кода Python. Кроме того, модели, по-видимому, изучили определенный метод кадрирования кода с помощью декоратора, который непреднамеренно мешал выполнению кода.

В результате становится очевидным, что ни результаты, ни сам эксперимент нельзя рассматривать как свидетельство деградации модели. Вместо этого модели демонстрируют другой подход к генерации ответов, потенциально отражающий различия в их обучении.

Проверка навыков программирования и математических способностей. GPT-4 и ChatGPT пролил свет на интересные находки. Вопреки первоначальным предположениям, модели продемонстрировали заметные улучшения в одних областях и поведенческие изменения в других.

Когда дело доходит до задач программирования, обе модели показали снижение реакции на «неправильные» подсказки, причем GPT-4 в таких случаях наблюдается более чем четырехкратное снижение. Кроме того, в задаче «Визуальное мышление» качество ответов улучшилось на пару процентных пунктов для обеих моделей. Эти наблюдения указывают на прогресс, а не на ухудшение производительности.

Тем не менее, оценка математических навыков вносит интригующий элемент. Модели постоянно давали простые числа в качестве ответов, что указывало на последовательный ответ «да». Тем не менее, после введения составных чисел в выборку стало очевидно, что модели изменили свое поведение и начали давать ответы «нет», предполагая скорее неопределенность, чем снижение качества. Сам тест своеобразный и односторонний, и его результаты можно отнести к изменениям в поведении модели, а не к снижению качества.

Важно отметить, что тестировались версии API, а не версии для браузера. Хотя возможно, что модели в браузере подверглись корректировке для оптимизации ресурсов, в прилагаемом исследовании этого не делается. defiокончательно доказать эту гипотезу. Влияние таких изменений может быть сравнимо с фактическим понижением версии модели, что приводит к потенциальным проблемам для пользователей, которые полагаются на конкретные рабочие решения. наводящие и накопленный опыт.

В случае GPT-4 API, эти отклонения в поведении могут иметь ощутимые последствия. Код, разработанный на основе потребностей и задач конкретного пользователя, может перестать функционировать должным образом, если поведение модели претерпит изменения.

Пользователям рекомендуется включать аналогичные методы тестирования в свои рабочие процессы. Создавая набор подсказок, сопровождающих текстов и ожидаемых результатов, пользователи могут регулярно проверять соответствие между своими ожиданиями и ответами модели. При обнаружении каких-либо отклонений могут быть приняты соответствующие меры для исправления ситуации.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Nexo начинает «охоту», чтобы вознаградить пользователей токенами NEXO на сумму 12 миллионов долларов за взаимодействие с ее экосистемой
Области применения: Новостной репортаж Технологии
Nexo начинает «охоту», чтобы вознаградить пользователей токенами NEXO на сумму 12 миллионов долларов за взаимодействие с ее экосистемой
8 мая 2024
Биржа Revolut X Revolut привлекает криптотрейдеров нулевой комиссией производителя и расширенной аналитикой
Области применения: Software Истории и обзоры Технологии
Биржа Revolut X Revolut привлекает криптотрейдеров нулевой комиссией производителя и расширенной аналитикой
8 мая 2024
Криптовалютная торговая платформа BitMEX представляет торговлю опционами с нулевой комиссией и денежными стимулами
Бизнес Области применения: Новостной репортаж
Криптовалютная торговая платформа BitMEX представляет торговлю опционами с нулевой комиссией и денежными стимулами
8 мая 2024
Lisk официально переходит на Ethereum Layer 2 и представляет ядро ​​v4.0.6
Новостной репортаж Технологии
Lisk официально переходит на Ethereum Layer 2 и представляет ядро ​​v4.0.6
8 мая 2024
CRYPTOMERIA LABS PTE. ООО