Звіт про новини Технологія
Квітень 05, 2023

8 речей, які ви повинні знати про великі мовні моделі

Коротко

Великі мовні моделі (LLM) використовуються для вивчення нюансів природної мови, покращення здатності машин сприймати та створювати текст, а також автоматизувати такі завдання, як розпізнавання голосу та машинний переклад.

Немає простого рішення для керування LLM, але вони такі ж здатні, як і люди.

Зі сплеском розвитку обробки природної мови та її використання в бізнесі зростає інтерес до великих мовних моделей. Ці моделі використовуються для вивчення нюансів природної мови, покращення здатності машин сприймати та генерувати текст і автоматизувати такі завдання, як розпізнавання голосу та машинний переклад. Ось вісім основних речей, які ви повинні знати про великі мовні моделі (LLM).

10 речей, які ви повинні знати про великі мовні моделі
@Midjourney / Taka#4076

LLM є більш «здатними», оскільки витрати постійно зростають

LLM передбачувано стають більш «дієздатними» зі зростанням витрат, навіть без крутих інновацій. Головне тут – передбачуваність, про що було показано в статті про GPT-4: навчали п’ять-сім маленьких моделей з бюджетом 0.1% від кінцевої, а потім на основі цього робили прогноз для величезної моделі. Для загальної оцінки здивування та показників на підвибірці одного конкретного завдання такий прогноз був дуже точним. Ця передбачуваність важлива для підприємств і організацій, які покладаються на LLM у своїй діяльності, оскільки вони можуть відповідно складати бюджет і планувати майбутні витрати. Однак важливо зазначити, що хоча зростання витрат може призвести до покращення можливостей, швидкість покращення може зрештою зупинитися, що змусить інвестувати в нові інновації, щоб продовжувати прогрес.

Короткий огляд того, як GPT моделі адаптуються в міру зростання витрат на навчання

Однак конкретні важливі навички, як правило, з’являються непередбачувано як побічний продукт зростання витрати на навчання (довше навчання, більше даних, більша модель) — майже неможливо передбачити, коли моделі почнуть виконувати певні завдання. Ми досліджували тему більш глибоко в нашому стаття про історію розвитку с GPT моделі. На малюнку показано розподіл приросту якості моделей по різних завданнях. Тільки великі моделі можуть навчитися виконувати різні завдання. Цей графік підкреслює значний вплив збільшення розміру GPT Моделі на їх продуктивність у різних завданнях. Однак важливо зазначити, що це відбувається за рахунок збільшення обчислювальних ресурсів і впливу на навколишнє середовище.

Короткий огляд того, як GPT моделі адаптуються в міру зростання витрат на навчання

LLM навчаються грати в настільні ігри, використовуючи представлення зовнішнього світу

LLM часто вивчають і використовують уявлення про зовнішній світ. Тут багато прикладів, і ось один із них: Моделі навчені грати в настільні ігри на основі описів окремих ходів, ніколи не бачачи зображення ігрового поля, вивчати внутрішні уявлення про стан дошки під час кожного ходу. Потім можна використовувати ці внутрішні представлення передбачати майбутнє ходи та результати, що дозволяє моделі грати в гру на високому рівні. Ця здатність вивчати та використовувати представлення є ключовою аспект машинного навчання і штучний інтелект.

Не існує простого рішення для управління LLM

Не існує надійних методів контролю поведінки LLM. Хоча є певний прогрес у розумінні та пом’якшенні різних проблем (включаючи ChatGPT та GPT-4 за допомогою зворотного зв’язку), немає консенсусу щодо того, чи зможемо ми їх вирішити. Зростає занепокоєння, що це стане величезною, потенційно катастрофічною проблемою в майбутньому, коли будуть створені ще більші системи. Тому дослідники досліджують нові методи, щоб забезпечити відповідність систем штучного інтелекту людським цінностям і цілям, таким як вирівнювання цінностей і винагорода. Проте гарантувати це залишається складним завданням безпека та надійність LLM у складних сценаріях реального світу.

Детальніше: OpenAI Збирає команду з 50+ експертів для вдосконалення GPT-4Безпека

Експерти не можуть пояснити, як працює LLM

Експерти ще не можуть інтерпретувати внутрішню роботу LLM. Жодна техніка не дозволить нам сформулювати будь-яким задовільним чином, які саме знання, міркування чи цілі використовує модель, коли генерує будь-який результат. Відсутність інтерпретації викликає занепокоєння щодо надійності та справедливості рішень LLM, особливо у таких серйозних заявках, як кримінальне правосуддя чи кредитний рейтинг. Це також підкреслює необхідність подальших досліджень щодо розробки більш прозорих і підзвітних моделей ШІ.

LLM такі ж здатні, як і люди

Хоча магістратури навчаються в основному імітувати поведінку людини під час написання тексту, вони мають потенціал перевершити нас у багатьох завданнях. Це вже можна побачити, граючи в шахи або Го. Це пов’язано з їхньою здатністю аналізувати величезні обсяги даних і приймати рішення на основі цього аналізу зі швидкістю, з якою люди не можуть зрівнятися. Проте магістрам все ще бракує креативності та інтуїції, якими володіють люди, що робить їх менш придатними для багатьох завдань.

Детальніше: OpenAI Збирає команду з 50+ експертів для вдосконалення GPT-4Безпека

LLM має бути більше, ніж просто «майстром на всі руки»

LLMs не повинні виражати цінності своїх творців або цінності, закодовані у виборі з Інтернету. Вони не повинні повторювати стереотипи чи теорії змови чи прагнути когось образити. Натомість LLM мають бути розроблені для надання неупередженої та фактичної інформації своїм користувачам, поважаючи культурні та суспільні відмінності. Крім того, вони повинні проходити регулярне тестування та моніторинг, щоб переконатися, що вони продовжують відповідати цим стандартам.

Моделі «розумніші», ніж люди думають на основі першого враження

Оцінки здібностей моделі на основі першого враження часто вводять в оману. Дуже часто потрібно правильно підказати, запропонувати модель, а може бути, показати приклади, і вона почне справлятися набагато краще. Тобто він «розумніший», ніж здається на перший погляд. Тому вкрай важливо дати моделі справедливий шанс і забезпечити її необхідними ресурсами для найкращої роботи. При правильному підході навіть неадекватні на перший погляд моделі можуть здивувати нас своїми можливостями.

Якщо ми зосередимося на вибірці з 202 завдань із набору даних BIG-Bench (це було спеціально ускладнено для тестування мовні моделі від і до), то як правило (в середньому) моделі показують зростання якості зі збільшенням масштабу, але окремо метрики в завданнях можуть:

  • покращуватись поступово,
  • різко покращити,
  • залишаються незмінними,
  • зменшення,
  • не показують кореляції.

Все це призводить до неможливості впевнено екстраполювати продуктивність будь-якої майбутньої системи. Особливо цікава зелена частина — саме тут без будь-якої причини різко підскакують показники якості.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Orbiter Finance співпрацює з мережею Zulu Bitcoin рівня 2 і розгортає її в тестовій мережі Lwazi
Business Звіт про новини Технологія
Orbiter Finance співпрацює з мережею Zulu Bitcoin рівня 2 і розгортає її в тестовій мережі Lwazi 
Травень 7, 2024
Криптобіржа Bybit інтегрує USDe Ethena Labs як заставний актив, уможливлює торгівлю парами BTC-USDe та ETH-USDe
ринки Звіт про новини Технологія
Криптобіржа Bybit інтегрує USDe Ethena Labs як заставний актив, уможливлює торгівлю парами BTC-USDe та ETH-USDe
Травень 7, 2024
Bitget Wallet представляє GetDrop Airdrop Платформа та запускає першу подію Meme Coin із призовим фондом у 130,000 XNUMX доларів США
ринки Звіт про новини Технологія
Bitget Wallet представляє GetDrop Airdrop Платформа та запускає першу подію Meme Coin із призовим фондом у 130,000 XNUMX доларів США
Травень 7, 2024
Від простого рефлексу до агентів навчання: ознайомтеся з різними типами агентів ШІ та їх ролями в сучасних програмах
Стиль життя Софтвер Розповіді та огляди Технологія
Від простого рефлексу до агентів навчання: ознайомтеся з різними типами агентів ШІ та їх ролями в сучасних програмах
Травень 7, 2024
CRYPTOMERIA LABS PTE. LTD.