Звіт про новини Технологія
Березня 15, 2023

GPT-4 Переважає GPT-3.5 По всій дошці на різноманітних контрольних показниках дослідження

Коротко

Команда GPT-4 досяг вищого порогового значення, ніж GPT-3.5 за різними тестами.

Це велике досягнення, оскільки воно показує, що машини не тільки здатні до людського інтелекту, але й можуть перевершити нас, що викликає питання щодо майбутнього ШІ та його потенційного впливу на ринок праці.

GPT-4 значно перевершує найсучасніші (SOTA) моделі, включно з тими, які використовують додаткові протоколи навчання або спеціалізований дизайн, а також існуючі великі мовні моделі.

Команда GPT-4 досяг вищих балів, ніж GPT-3.5 за різними тестами. Це великий прорив для машин, оскільки він доводить, що тепер вони можуть не тільки вирішувати проблеми, для яких спочатку розроблено, але й можуть робити це краще, ніж студенти університету.

GPT-4 перевершує GPT-3.5 за різними критеріями дослідження

Дивлячись на цей результат, слід взяти до уваги кілька речей. По-перше, GPT-4 не проходив жодної спеціальної підготовки до цих іспитів. Для цього використовували найновіші загальнодоступні тести (у випадку олімпіад і питань з безкоштовними відповідями AP) або купували видання практичних іспитів 2022–2023 років. По-друге, важливо зазначити, що GPT-4Продуктивність не обов’язково може відображати здібності тестувальників, оскільки вона працює на іншому наборі принципів і алгоритмів.

Це велике досягнення як це показує що машини не тільки здатні до людського інтелекту, але й можуть перевершити нас. Це прокладає шлях до майбутнього, де машини зможуть виконувати дедалі складніші завдання, що зрештою веде до майбутнього, у якому вони зможуть допомагати нам у повсякденному житті.

Команда GPT-4Здатність перевершувати людей у ​​певних завданнях викликає питання щодо майбутнього штучний інтелект і його потенційний вплив на ринок праці. Це також підкреслює необхідність продовження досліджень і розробок у цій галузі, щоб переконатися, що штучний інтелект використовується етично та відповідально.
Детальніше: 5+ найбільш очікуваних моделей штучного інтелекту з перетворенням тексту в зображення 2023 року

GPT-4, наприклад, склав імітований адвокатський іспит із результатом у 10% найкращих учасників тестування; GPT-3Оцінка .5 була в нижніх 10%. Це значне покращення в GPT-4Ефективність обумовлена ​​більшим обсягом навчальних даних і покращеною архітектурою. Очікується, що він матиме широкий спектр застосувань у різних сферах, включаючи обробку природної мови та автоматизований запис.

 
GPT-4 демонструє ефективність на рівні людини на більшості цих професійних і академічних іспитів. Примітно, що він склав імітаційну версію Єдиного іспиту адвокатів, набравши 10% кращих тестувальників. Схоже, що можливості моделі на іспитах випливають здебільшого з процесу попереднього навчання і на них RLHF істотно не впливає. У питаннях з варіантами відповідей обидві основи GPT-4 модель і модель RLHF показали в середньому однаково добре серед розробників тестованого іспиту.

Більшість найсучасніших моделей (SOTA), включно з тими, які можуть використовувати додаткові протоколи навчання або спеціалізований дизайн, а також існуючі великі мовні моделі, значно перевершують GPT-4.

GPT-4успішність з точки зору академічних стандартів. Контраст розробників GPT-4 з найкращою SOTA для кількох пострілів, оціненою LM, а також найкращою SOTA з тренуванням, спрямованим на тестування. За винятком DROP, GPT-4 перевершує всі поточні LM за всіма тестами та SOTA за допомогою спеціального навчання для тестів.

Внутрішньо розробники використовували GPT-4, що мало значний вплив на такі види діяльності, як програмування, продажі, підтримка та модерація вмісту. Зараз триває другий етап нашого методу узгодження, оскільки розробники використовують його, щоб допомогти людям переглядати результати ШІ.

Набір даних MMLU (Massive Multi-Task Language Understanding) містить запитання з дуже широкого діапазону тем щодо розуміння мови в різних завданнях (що охоплюють 57 областей, включаючи математику, біологію, право, соціальні та гуманітарні науки тощо). На запитання чотири варіанти відповіді, одна з яких правильна. Тобто випадкове вгадування показує результат у 25% правильних відповідей. Подивіться на малюнок нижче, щоб побачити приклади запитань та їхні труднощі. Пересічна людина-маркувальник (тобто це не вчений, не професор — звичайна людина, яка підробляє на розмітку) відповідає правильно на 35% питань; однак експерти можуть досягти оцінки +/- 90%.

Виконання GPT-4 різними мовами порівняно з попередніми моделями англійською на MMLU. GPT-4 перевищує англійську продуктивність існуючих мовних моделей для переважної більшості досліджених мов, включаючи мови з низьким ресурсом, такі як латиська, валлійська та суахілі.
Детальніше: 5 причин використовувати Bing на основі ШІ замість Google

Спочатку весь набір даних був англійською мовою. Але що, якщо питання та відповіді перекладені іншими мовами, особливо менш поширеними? Чи спрацює модель якось на них? У цьому тесті для перекладу використовувався сервіс Microsoft Azure Translate. Переклади не ідеальні; в деяких випадках важлива інформація втрачається. Однак навіть у цьому випадку в GPT-4 добре працює іншими мовами. У перекладених версіях MMLU, GPT-4 перевершує рівень англійської мови інших великих моделей (включаючи Google) на 24 з 26 перевірених мов.

Що ще, GPT-4 працює краще на рідкісних мовах, ніж ChatGPT зробив англійською (ChatGPT досяг результату 70.1%, тоді як результат нової моделі для тайської мови склав 71.8%). Бал за тест з англійської мови був найвищим, с GPT-4 продуктивність на 10% краща за інші моделі, включаючи найбільший PaLM від Google. Вона набрала 86.4%, а група експертів — 90%.

  • До літа 2023 року ШІ міг досягти нового рівня потужності завдяки ChatGPT, чат-бот, який використовує GPT-4 алгоритм і перевершує GPT-3 у 570 рази. Різноманітні елементи сприяють ChatGPTУспіх компанії, включно з її дизайном, який більше схожий на людину, і використанням передового аналізу даних і обробки природної мови для підвищення ефективності та точності.
  • Microsoft і OpenAI оголосили про відновлення співпраці та плани щодо впровадження пошукової системи Bing у січні розширені можливості пошуку за допомогою ШІ. Дуже витончений GPTЗаміна моделі 3.5, GPT4, щойно запущено, і він має потенціал для значного підвищення можливостей пошуку Bing для розуміння запитів природною мовою та надання точніших результатів. Варто мати гарний резервний план на випадок, якщо щось піде не так.

Читайте більше схожих новин:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Injective об’єднує зусилля з AltLayer, щоб перенести безпеку в inEVM
Business Звіт про новини Технологія
Injective об’єднує зусилля з AltLayer, щоб перенести безпеку в inEVM
Травень 3, 2024
Masa об’єднується з Teller, щоб представити MASA Lending Pool, що дає можливість USDC запозичувати на базі
ринки Звіт про новини Технологія
Masa об’єднується з Teller, щоб представити MASA Lending Pool, що дає можливість USDC запозичувати на базі
Травень 3, 2024
Найближчими тижнями Velodrome запускає бета-версію Superchain і розповсюджується на блокчейни рівня 2 OP Stack
ринки Звіт про новини Технологія
Найближчими тижнями Velodrome запускає бета-версію Superchain і розповсюджується на блокчейни рівня 2 OP Stack
Травень 3, 2024
CARV оголошує про партнерство з Aethir для децентралізації рівня даних і розподілу винагород
Business Звіт про новини Технологія
CARV оголошує про партнерство з Aethir для децентралізації рівня даних і розподілу винагород
Травень 3, 2024
CRYPTOMERIA LABS PTE. LTD.