Звіт про новини ТПВ Технологія
Травень 30, 2023

GPT-4Показники на іспиті адвоката США суперечать його твердженням

Коротко

Експертиза GPT-4Ефективність Єдиного адвокатського іспиту виявила розбіжність між очікуваною та фактичною успішністю, підкреслюючи важливість прозорих процедур оцінювання та доступних даних.

OpenAI заохочується усунути розбіжності та розробити більш інклюзивний і надійний підхід до оцінки моделі ШІ, щоб завоювати довіру та забезпечити надійність.

У недавньому обстеженні в GPT-4продуктивність на єдиному адвокатському іспиті (EBU), виникли сумніви щодо точності OpenAIтвердження щодо успішності моделі. Всупереч початковому твердженню, що GPT-4 перевершує 90% осіб, результати свідчать про значну розбіжність між оціненою та фактичною продуктивністю моделі ШІ. Це відкриття підкреслює важливість прозорих процедур оцінки та доступних даних для підтвердження таких заяв.

GPT-4Показники на іспиті адвоката США суперечать його твердженням
@Midjourney

Експертиза була зосереджена на різних факторах, щоб визначити справжні можливості GPT-4. По-перше, аналіз лютневі іспити в Іллінойсі показали, що GPT-4бали наблизилися до 90-й перцентиль. Однак було помічено, що на ці бали сильно вплинули ті, хто перездавав іспит раніше за липень і, отже, набрали нижче загального середнього.

Крім того, результати липневого іспиту суперечили OpenAIпретензії, що розкриває GPT-4 тільки б Перевершити 68% людей і 48% есе. GPT-4Ефективність щодо тих, хто вперше брав участь (за винятком повторної здачі), була оцінена на рівні 63-го процентиля, коли враховувалися офіційні дані кількох тестів у різні періоди, причому есе отримали значно нижчі результати на 41-му процентилі.

Додаткову перспективу було отримано завдяки перевірці успішності тих, хто склав іспит, включаючи осіб, які мають ліцензію, і тих, хто очікує на отримання ліцензії. Щодо цього, GPT-4Загальна продуктивність була оцінена на 48-му процентилі, а есе показали ще гірші результати на 15-му процентилі.

Хоча ці висновки викликають занепокоєння, важливо враховувати можливість людської помилки в процесі перевірки. Автор статті наголошує на важливості розуміння вибірки, яку дослідники використовують для оцінки GPT-4продуктивність. Відсутність офіційних даних, особливо в зведеній формі, ускладнює чесне порівняння та оцінку процентилів. Створення чітких і доступних методів оцінки, які можуть оцінювати всі зацікавлені сторони, є критично важливим.

У відповідь на ці побоювання, OpenAI закликається усунути невідповідності та надати додаткову інформацію у процес оцінювання. Прозорість і відкритість мають важливе значення для завоювання довіри та забезпечення надійності моделей штучного інтелекту в галузях високого рівня ставок, таких як право.

Слід зазначити, що в статті не розглядається конкретна оцінка, досягнута GPT-4, який, як повідомляється, становить 298. Оцінка значущості цього балу вимагає контекстуального розуміння використовуваної системи оцінювання. Подібно до того, як дитина, яка повертається зі школи додому з «В», може бути приводом для святкування або розчарування, тлумачення GPT-4Оцінка залежить від використаної шкали.

Оцінка GPT-4успішність на адвокатському іспиті викликає серйозне занепокоєння про правдивість OpenAIпочаткові твердження. Розрив між розрахунковою та фактичною продуктивністю підкреслює важливість чітких систем оцінювання та легкодоступних даних. OpenAI заохочується до вирішення цих проблем і розвитку більш інклюзивної та надійний підхід до ШІ оцінка моделі.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше

Засновників гаманця Samourai Wallet звинувачують у сприянні угодам у Darknet на суму 2 мільярди доларів

Занепокоєння засновників гаманця Samourai Wallet є помітною невдачею для галузі, підкреслюючи постійне...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Chainlink і Rapid Addition співпрацюють для розробки блокчейн-адаптера на основі CCIP
Business Звіт про новини Технологія
Chainlink і Rapid Addition співпрацюють для розробки блокчейн-адаптера на основі CCIP
Травень 1, 2024
BitSmiley запускає Alphanet V1, дебютує на Bitcoin Layer 2 Network Bitlayer
Звіт про новини Технологія
BitSmiley запускає Alphanet V1, дебютує на Bitcoin Layer 2 Network Bitlayer
Травень 1, 2024
У квітні 2024 року кількість хаків і шахрайства досягла історичного мінімуму, CertiK повідомляє про зниження на 141% порівняно з березнем
ринки Безпека Wiki Розповіді та огляди Технологія
У квітні 2024 року кількість хаків і шахрайства досягла історичного мінімуму, CertiK повідомляє про зниження на 141% порівняно з березнем
Травень 1, 2024
Ціна біткойна падає напередодні рішення Федеральної резервної системи про відсоткову ставку, аналітики попереджають про потенційні зміни ринку
ринки Звіт про новини Технологія
Ціна біткойна падає напередодні рішення Федеральної резервної системи про відсоткову ставку, аналітики попереджають про потенційні зміни ринку
Травень 1, 2024
CRYPTOMERIA LABS PTE. LTD.