Исследование Стэнфорда подтверждает GPT-4 Становится тупее
Коротко
В исследовании Матея Захарии и его команды из Стэнфорда и Калифорнийского университета в Беркли сравнивались результаты GPT-4 и ChatGPT для устранения опасений пользователей по поводу эффективности модели.
В ходе исследования модели оценивались по четырем конкретным задачам: математике, кодированию, чувствительности и визуальному мышлению.
Матей Захария и его команда из Стэнфорда и Калифорнийского университета в Беркли провела исследование который сравнивал производительность GPT-4 в ChatGPT. Это расследование было направлено на устранение опасений пользователей по поводу снижения эффективности модели.
Похожие страницы:: GPT-4 против GPT-3: Что может предложить новая модель? |
Исследователи разработали исследование для оценки моделей по четырем конкретным задачам. Эти задачи включали:
- Математика: способность модели определять, является ли заданное число простым или составным.
- Кодирование: оценка способности модели генерировать осмысленный и функциональный код.
- Чувствительность: анализ ответов модели на вопросы с потенциально «токсичным» содержанием.
- Визуальное мышление: проверка способности модели решать проблемы, связанные с визуальными паттернами, с использованием эталонного теста ARC. Участники должны были определить закономерности в наборе изображений и применить их для решения нового примера.
В области математики оба GPT-4 версии, мартовская и июньская, продемонстрировали неизменную точность в определении простых и составных чисел. Модели продемонстрировали умение выполнять эти расчеты, обеспечивая надежные результаты.
Переходим к кодированию. GPT-4 продемонстрировал улучшенную способность генерировать осмысленный и функциональный код по сравнению со своими предшественниками. Возможности модели по генерации кода оказались многообещающими, предлагая потенциальные преимущества разработчикам и программистам.
Что касается чувствительности, в исследовании оценивались ответы моделей на вопросы, содержащие потенциально вредный или оскорбительный контент. GPT-4 продемонстрировали расширенный анализ чувствительности и продемонстрировали улучшенную способность предоставлять соответствующие ответы в таких контекстах. Это означает позитивный шаг вперед в решении проблем пользователей по поводу потенциально проблемных результатов.
Наконец, задачи визуального рассуждения, основанные на тесте ARC, были успешно выполнены обоими GPT-4 версии. Модели эффективно идентифицировали закономерности в наборах изображений и продемонстрировали способность применять эти закономерности для решения новых примеров. Это демонстрирует их способность к визуальному пониманию и рассуждению.
ChatGPT продемонстрировали значительный рост показателей производительности к июню, продемонстрировав значительное улучшение более чем в десять раз. Хотя исследование не углублялось в конкретные факторы, способствующие этому улучшению, оно подчеркивает ChatGPTпрогресс в математических рассуждениях и возможностях решения проблем.
Похожие страницы:: 10+ лучших AI Photo Enhancers в 2023 году |
Качество GPT-4 и ChatGPT был допрошен после анализа их способностей программирования. Однако при ближайшем рассмотрении обнаруживаются некоторые увлекательные нюансы, противоречащие первому впечатлению.
Авторы не выполняли и не проверяли правильность кода; их оценка была основана исключительно на его достоверности как кода Python. Кроме того, модели, по-видимому, изучили определенный метод кадрирования кода с помощью декоратора, который непреднамеренно мешал выполнению кода.
В результате становится очевидным, что ни результаты, ни сам эксперимент нельзя рассматривать как свидетельство деградации модели. Вместо этого модели демонстрируют другой подход к генерации ответов, потенциально отражающий различия в их обучении.
Когда дело доходит до задач программирования, обе модели показали снижение реакции на «неправильные» подсказки, причем GPT-4 в таких случаях наблюдается более чем четырехкратное снижение. Кроме того, в задаче «Визуальное мышление» качество ответов улучшилось на пару процентных пунктов для обеих моделей. Эти наблюдения указывают на прогресс, а не на ухудшение производительности.
Тем не менее, оценка математических навыков вносит интригующий элемент. Модели постоянно давали простые числа в качестве ответов, что указывало на последовательный ответ «да». Тем не менее, после введения составных чисел в выборку стало очевидно, что модели изменили свое поведение и начали давать ответы «нет», предполагая скорее неопределенность, чем снижение качества. Сам тест своеобразный и односторонний, и его результаты можно отнести к изменениям в поведении модели, а не к снижению качества.
Важно отметить, что тестировались версии API, а не версии для браузера. Хотя возможно, что модели в браузере подверглись корректировке для оптимизации ресурсов, в прилагаемом исследовании этого не делается. defiокончательно доказать эту гипотезу. Влияние таких изменений может быть сравнимо с фактическим понижением версии модели, что приводит к потенциальным проблемам для пользователей, которые полагаются на конкретные рабочие решения. наводящие и накопленный опыт.
В случае GPT-4 API, эти отклонения в поведении могут иметь ощутимые последствия. Код, разработанный на основе потребностей и задач конкретного пользователя, может перестать функционировать должным образом, если поведение модели претерпит изменения.
Пользователям рекомендуется включать аналогичные методы тестирования в свои рабочие процессы. Создавая набор подсказок, сопровождающих текстов и ожидаемых результатов, пользователи могут регулярно проверять соответствие между своими ожиданиями и ответами модели. При обнаружении каких-либо отклонений могут быть приняты соответствующие меры для исправления ситуации.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.