Новостной репортаж СМЗ Технологии
30 мая 2023

GPT-4Выступление компании на экзамене на адвоката в США противоречит ее утверждениям

Коротко

Рассмотрение GPT-4Результаты сдачи унифицированного экзамена на адвоката выявили несоответствие между расчетными и фактическими результатами, подчеркнув важность прозрачных процедур оценки и доступных данных.

OpenAI рекомендуется устранять расхождения и разрабатывать более инклюзивный и надежный подход к оценке моделей ИИ, чтобы завоевать доверие и обеспечить достоверность.

В недавнем исследовании GPT-4выступление на универсальном экзамене на адвоката (ВБО), возникли сомнения в правильности OpenAIпретензии относительно успешности модели. Вопреки первоначальному утверждению, что GPT-4 превосходит 90% людей, результаты свидетельствуют о значительном расхождении между предполагаемой и фактической производительностью модели ИИ. Это открытие подчеркивает важность прозрачных процедур оценки и доступных данных для проверки таких заявлений.

GPT-4Выступление компании на экзамене на адвоката в США противоречит ее утверждениям
@Midjourney

Исследование было сосредоточено на различных факторах, чтобы выяснить истинные возможности GPT-4. Во-первых, анализ февральских экзаменов в Иллинойсе выяснилось, что GPT-4его оценки приблизились к 90 процентиль. Однако было замечено, что на эти баллы сильно повлияли пересдавшие, которые ранее не сдали июльский экзамен и, таким образом, набрали ниже общего среднего.

Кроме того, результаты июльского экзамена противоречили OpenAIпретензии, показывающие, что GPT-4 только бы опережать 68% людей и 48% эссе. GPT-4Результативность теста против сдавших впервые (без учета повторной сдачи) оценивалась на уровне 63-го процентиля, если учитывать официальные данные нескольких тестов в разные периоды, при этом эссе набирали значительно меньшие баллы - 41-й процентиль.

Дополнительная перспектива была получена путем изучения результатов тех, кто сдал экзамен, включая лиц, имеющих лицензию, и тех, кто ожидает лицензирования. В этом отношении, GPT-4Общая успеваемость была оценена на 48-м процентиле, а эссе оказались еще хуже на 15-м процентиле.

Хотя эти выводы вызывают тревогу, крайне важно учитывать возможность человеческой ошибки в процессе обзора. Автор статьи подчеркивает важность понимания выборки, используемой исследователями для оценки GPT-4производительность. Отсутствие официальных данных, особенно в агрегированной форме, затрудняет справедливое сравнение и оценку процентилей. Крайне важно установить четкие и доступные методы оценки, которые смогут оценить все заинтересованные стороны.

В ответ на эти опасения, OpenAI настоятельно рекомендуется устранить несоответствия и предоставить дополнительную информацию в процесс оценки. Прозрачность и открытость необходимы для завоевания доверия и обеспечения достоверности моделей ИИ в таких важных областях, как юриспруденция.

Следует отметить, что в статье не обсуждается конкретный балл, достигнутый GPT-4, который, как сообщается, равен 298. Оценка значимости этого балла требует контекстуального понимания используемой системы оценок. Точно так же, как ребенок, пришедший домой из школы с оценкой «четверка», может стать поводом для радости или разочарования, интерпретация GPT-4Оценка зависит от используемой шкалы.

Оценка GPT-4выступление на экзамене на адвоката вызывает серьезные опасения о правдивости OpenAIпервоначальные утверждения. Разрыв между предполагаемой и фактической эффективностью подчеркивает важность четких систем оценки и легкодоступных данных. OpenAI рекомендуется решать эти проблемы и развивать более инклюзивное и надежный подход к ИИ оценка модели.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше

Основателей Samourai Wallet обвиняют в содействии сделкам в даркнете на 2 миллиарда долларов

Задержание основателей Samourai Wallet представляет собой заметную неудачу для отрасли, подчеркивая упорное...

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Chainlink и Rapid Addition совместно разрабатывают адаптер блокчейна на основе CCIP
Бизнес Новостной репортаж Технологии
Chainlink и Rapid Addition совместно разрабатывают адаптер блокчейна на основе CCIP
1 мая 2024
BitSmiley запускает Alphanet V1 и дебютирует в сети Bitcoin Layer 2 Bitlayer
Новостной репортаж Технологии
BitSmiley запускает Alphanet V1 и дебютирует в сети Bitcoin Layer 2 Bitlayer
1 мая 2024
В апреле 2024 года зафиксирован исторический минимум хакерских атак и мошенничества, CertiK сообщает о снижении на 141% по сравнению с мартом
Области применения: Безопасность Wiki Истории и обзоры Технологии
В апреле 2024 года зафиксирован исторический минимум хакерских атак и мошенничества, CertiK сообщает о снижении на 141% по сравнению с мартом
1 мая 2024
Цена на биткойны падает в преддверии объявления решения Федеральной резервной системы по процентной ставке, аналитики предупреждают о потенциальном сдвиге рынка
Области применения: Новостной репортаж Технологии
Цена на биткойны падает в преддверии объявления решения Федеральной резервной системы по процентной ставке, аналитики предупреждают о потенциальном сдвиге рынка
1 мая 2024
CRYPTOMERIA LABS PTE. ООО