Дослідження Стенфорда підтверджує GPT-4 стає тупішою
Коротко
Дослідження, проведене Матеєм Захарією та його командою зі Стенфорда та Каліфорнійського університету в Берклі, порівнювало продуктивність GPT-4 та ChatGPT щоб усунути занепокоєння користувачів щодо ефективності моделі.
Дослідження оцінювало моделі за чотирма конкретними завданнями: математика, кодування, чутливість і візуальне мислення.
Матей Захарія та його команда зі Стенфорда та Каліфорнійського університету в Берклі проведено дослідження які порівнювали продуктивність GPT-4 до ChatGPT. Це дослідження мало на меті усунути занепокоєння користувачів щодо зниження ефективності моделі.
Дослідники розробили дослідження, щоб оцінити моделі за чотирма конкретними завданнями. Ці завдання включали:
- Математика: здатність моделі визначати, чи є дане число простим чи складеним.
- Кодування: Оцінка здатності моделі створювати значущий і функціональний код.
- Чутливість: аналіз відповідей моделі на запитання з потенційно «токсичним» вмістом.
- Візуальне міркування: перевірка здатності моделі розв’язувати проблеми, які включають візуальні шаблони, за допомогою тесту ARC. Учасники повинні були визначити шаблони в наборі зображень і застосувати їх для вирішення нового прикладу.
У галузі математики і те, і інше GPT-4 версії, березневі та червневі випуски, продемонстрували незмінну точність у визначенні простих і складених чисел. Моделі продемонстрували вміння виконувати ці обчислення, забезпечуючи надійні результати.
Переходячи до кодування, GPT-4 продемонстрував покращену здатність генерувати змістовний і функціональний код порівняно зі своїми попередниками. Можливості генерації коду моделі показали багатообіцяючі, пропонуючи потенційні переваги для розробників і програмістів.
Що стосується чутливості, дослідження оцінювало відповіді моделей на запитання з потенційно шкідливим або образливим вмістом. GPT-4 продемонстрував покращений аналіз чутливості та продемонстрував покращену здатність надавати відповідні відповіді в таких контекстах. Це означає позитивний крок вперед у вирішенні проблем користувачів щодо потенційно проблемних результатів.
Нарешті, завдання на візуальне мислення, засновані на тесті ARC, були успішно виконані обома GPT-4 версії. Моделі ефективно ідентифікували шаблони в наборах зображень і продемонстрували здатність застосовувати ці шаблони для вирішення нових прикладів. Це демонструє їх здатність до візуального розуміння та міркування.
ChatGPT продемонстрував значне зростання показників ефективності до червня, продемонструвавши значне покращення більш ніж у десять разів. Хоча дослідження не заглиблювалося в конкретні фактори, що сприяють цьому покращенню, воно підкреслює ChatGPTрозвиток математичних міркувань і здатність розв'язувати проблеми.
споріднений: 10+ найкращих AI Photo Enhancers у 2023 році |
Якість GPT-4 та ChatGPT було допитано після аналізу їхніх здібностей до програмування. Однак при ближчому розгляді можна виявити кілька цікавих нюансів, які суперечать першому враженню.
Автори не виконували та не перевіряли правильність коду; їхня оцінка ґрунтувалася виключно на його дійсності як коду Python. Крім того, схоже, що моделі навчилися певній техніці кадрування коду за допомогою декоратора, який ненавмисно перешкоджав виконанню коду.
У результаті стає очевидним, що ні результати, ні сам експеримент не можна вважати доказом деградації моделі. Натомість моделі демонструють інший підхід до генерування відповідей, потенційно відображаючи варіації в їхньому навчанні.
Що стосується завдань програмування, то обидві моделі показали зменшення відповідей на «неправильні» підказки, з GPT-4 демонструючи більш ніж чотирикратне зниження в таких випадках. Крім того, у завданні Visual Reasoning якість відповідей покращилася на кілька відсотків для обох моделей. Ці спостереження вказують на прогрес, а не на погіршення продуктивності.
Однак оцінювання математичних навичок вносить інтригуючий елемент. Моделі послідовно надавали прості числа як відповіді, що вказувало на послідовну відповідь «так». Проте після введення складених чисел у вибірку стало очевидно, що моделі змінили свою поведінку та почали надавати відповіді «ні», що вказує на невизначеність, а не на зниження якості. Сам тест є своєрідним і однобічним, і його результати можна пояснити змінами в поведінці моделі, а не зниженням якості.
Важливо зауважити, що перевірялися версії API, а не версії для браузера. Хоча можливо, що моделі в браузері зазнали коригувань для оптимізації ресурсів, додане дослідження цього не робить defiнаочно довести цю гіпотезу. Вплив таких змін можна порівняти з фактичним зниженням версії моделі, що може призвести до потенційних проблем для користувачів, які покладаються на певну роботу підказок і накопичений досвід.
У разі GPT-4 API додатків, ці відхилення в поведінці можуть мати відчутні наслідки. Код, який було розроблено на основі потреб і завдань конкретного користувача, може більше не функціонувати належним чином, якщо модель зазнає змін у своїй поведінці.
Рекомендується, щоб користувачі включили подібні методи тестування у свої робочі процеси. Створюючи набір підказок, супровідних текстів і очікуваних результатів, користувачі можуть регулярно перевіряти узгодженість між їхніми очікуваннями та відповідями моделі. Як тільки будуть виявлені будь-які відхилення, можна вжити відповідних заходів для виправлення ситуації.
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.