Звіт про новини Технологія
Липень 20, 2023

Дослідження Стенфорда підтверджує GPT-4 стає тупішою

Коротко

Дослідження, проведене Матеєм Захарією та його командою зі Стенфорда та Каліфорнійського університету в Берклі, порівнювало продуктивність GPT-4 та ChatGPT щоб усунути занепокоєння користувачів щодо ефективності моделі.

Дослідження оцінювало моделі за чотирма конкретними завданнями: математика, кодування, чутливість і візуальне мислення.

Матей Захарія та його команда зі Стенфорда та Каліфорнійського університету в Берклі проведено дослідження які порівнювали продуктивність GPT-4 до ChatGPT. Це дослідження мало на меті усунути занепокоєння користувачів щодо зниження ефективності моделі.

Дослідження Стенфорда підтверджує GPT-4 стає тупішою
Кредит: Metaverse Post
споріднений: GPT-4 проти GPT-3: Що може запропонувати нова модель?

Дослідники розробили дослідження, щоб оцінити моделі за чотирма конкретними завданнями. Ці завдання включали:

  • Математика: здатність моделі визначати, чи є дане число простим чи складеним.
  • Кодування: Оцінка здатності моделі створювати значущий і функціональний код.
  • Чутливість: аналіз відповідей моделі на запитання з потенційно «токсичним» вмістом.
  • Візуальне міркування: перевірка здатності моделі розв’язувати проблеми, які включають візуальні шаблони, за допомогою тесту ARC. Учасники повинні були визначити шаблони в наборі зображень і застосувати їх для вирішення нового прикладу.

У галузі математики і те, і інше GPT-4 версії, березневі та червневі випуски, продемонстрували незмінну точність у визначенні простих і складених чисел. Моделі продемонстрували вміння виконувати ці обчислення, забезпечуючи надійні результати.

Переходячи до кодування, GPT-4 продемонстрував покращену здатність генерувати змістовний і функціональний код порівняно зі своїми попередниками. Можливості генерації коду моделі показали багатообіцяючі, пропонуючи потенційні переваги для розробників і програмістів.

Що стосується чутливості, дослідження оцінювало відповіді моделей на запитання з потенційно шкідливим або образливим вмістом. GPT-4 продемонстрував покращений аналіз чутливості та продемонстрував покращену здатність надавати відповідні відповіді в таких контекстах. Це означає позитивний крок вперед у вирішенні проблем користувачів щодо потенційно проблемних результатів.

Нарешті, завдання на візуальне мислення, засновані на тесті ARC, були успішно виконані обома GPT-4 версії. Моделі ефективно ідентифікували шаблони в наборах зображень і продемонстрували здатність застосовувати ці шаблони для вирішення нових прикладів. Це демонструє їх здатність до візуального розуміння та міркування.

Результати свідчать про це GPT-4 показали зниження точності, лише трохи більше 2% правильних відповідей. Важливо зазначити, що цей конкретний тест насамперед оцінює здатність моделі відтворювати дані, а не демонструє її притаманні математичні здібності. Завдання зосереджується на відновленні пам’яті, оскільки моделі бракує можливості для перевірки обчислень і висновків, особливо коли йдеться про прості числа.

ChatGPT продемонстрував значне зростання показників ефективності до червня, продемонструвавши значне покращення більш ніж у десять разів. Хоча дослідження не заглиблювалося в конкретні фактори, що сприяють цьому покращенню, воно підкреслює ChatGPTрозвиток математичних міркувань і здатність розв'язувати проблеми.

Дослідження не оцінювало якість або правильність згенерованого коду. Натомість моделі демонстрували більш «настроювану» поведінку, пропонуючи фрагменти коду, не гарантуючи їхньої функціональної точності.
споріднений: 10+ найкращих AI Photo Enhancers у 2023 році

Якість GPT-4 та ChatGPT було допитано після аналізу їхніх здібностей до програмування. Однак при ближчому розгляді можна виявити кілька цікавих нюансів, які суперечать першому враженню.

Автори не виконували та не перевіряли правильність коду; їхня оцінка ґрунтувалася виключно на його дійсності як коду Python. Крім того, схоже, що моделі навчилися певній техніці кадрування коду за допомогою декоратора, який ненавмисно перешкоджав виконанню коду.

У результаті стає очевидним, що ні результати, ні сам експеримент не можна вважати доказом деградації моделі. Натомість моделі демонструють інший підхід до генерування відповідей, потенційно відображаючи варіації в їхньому навчанні.

Перевірка програмування та математичних здібностей GPT-4 та ChatGPT пролив світло на цікаві відкриття. Всупереч початковим припущенням, моделі продемонстрували помітні покращення в одних сферах, водночас продемонструвавши зміни поведінки в інших.

Що стосується завдань програмування, то обидві моделі показали зменшення відповідей на «неправильні» підказки, з GPT-4 демонструючи більш ніж чотирикратне зниження в таких випадках. Крім того, у завданні Visual Reasoning якість відповідей покращилася на кілька відсотків для обох моделей. Ці спостереження вказують на прогрес, а не на погіршення продуктивності.

Однак оцінювання математичних навичок вносить інтригуючий елемент. Моделі послідовно надавали прості числа як відповіді, що вказувало на послідовну відповідь «так». Проте після введення складених чисел у вибірку стало очевидно, що моделі змінили свою поведінку та почали надавати відповіді «ні», що вказує на невизначеність, а не на зниження якості. Сам тест є своєрідним і однобічним, і його результати можна пояснити змінами в поведінці моделі, а не зниженням якості.

Важливо зауважити, що перевірялися версії API, а не версії для браузера. Хоча можливо, що моделі в браузері зазнали коригувань для оптимізації ресурсів, додане дослідження цього не робить defiнаочно довести цю гіпотезу. Вплив таких змін можна порівняти з фактичним зниженням версії моделі, що може призвести до потенційних проблем для користувачів, які покладаються на певну роботу підказок і накопичений досвід.

У разі GPT-4 API додатків, ці відхилення в поведінці можуть мати відчутні наслідки. Код, який було розроблено на основі потреб і завдань конкретного користувача, може більше не функціонувати належним чином, якщо модель зазнає змін у своїй поведінці.

Рекомендується, щоб користувачі включили подібні методи тестування у свої робочі процеси. Створюючи набір підказок, супровідних текстів і очікуваних результатів, користувачі можуть регулярно перевіряти узгодженість між їхніми очікуваннями та відповідями моделі. Як тільки будуть виявлені будь-які відхилення, можна вжити відповідних заходів для виправлення ситуації.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Nexo розпочинає «полювання», щоб винагородити користувачів 12 мільйонами доларів у токенах NEXO за взаємодію з її екосистемою
ринки Звіт про новини Технологія
Nexo розпочинає «полювання», щоб винагородити користувачів 12 мільйонами доларів у токенах NEXO за взаємодію з її екосистемою
Травень 8, 2024
Біржа Revolut X від Revolut залучає криптовалютних трейдерів із нульовою комісією та розширеною аналітикою
ринки Софтвер Розповіді та огляди Технологія
Біржа Revolut X від Revolut залучає криптовалютних трейдерів із нульовою комісією та розширеною аналітикою
Травень 8, 2024
Криптова торгова платформа BitMEX дебютує з торгівлею опціонами з нульовими комісіями та грошовими стимулами
Business ринки Звіт про новини
Криптова торгова платформа BitMEX дебютує з торгівлею опціонами з нульовими комісіями та грошовими стимулами
Травень 8, 2024
Lisk офіційно переходить на Ethereum Layer 2 і представляє Core v4.0.6
Звіт про новини Технологія
Lisk офіційно переходить на Ethereum Layer 2 і представляє Core v4.0.6
Травень 8, 2024
CRYPTOMERIA LABS PTE. LTD.