Травень 15, 2023

Програми LLM: новий шлях до тонкої настройки нейронних моделей у складних ситуаціях

by Дамір Ялалов

Опубліковано: 15 травня 2023 о 3:42 Оновлено: 15 травня 2023 о 3:42

by Кароліна Гащ

Відредаговано та перевірено: 15 травня 2023 р. о 3:42

Коротко

Автори пропонують альтернативний шлях під назвою LLM Programs, який можна розглядати як розвиток навчання в контексті.

Ключем до вирішення проблеми за допомогою програми LLM є здатність розкласти рішення проблеми на послідовність простіших кроків.

Є два основних напрямки налаштування LLM: тонке налаштування (або додаткове навчання) попередньо навченої базової моделі та навчання в контексті. Тонке налаштування потребує значних обчислювальних ресурсів, збору даних та інфраструктури для цього, а потім розміщення точно налаштованих моделей. Тим часом навчання в контексті передбачає складання правильної підказки з прикладами вирішення проблеми, наприклад, ланцюг думок (CoT). Однак є деякі труднощі, такі як обмежений розмір тексту, який можна надіслати в модель, і той факт, що в складній багатопрохідній підказці кроки можуть заважати один одному, і модель може щось відволікати. що не слід відволікатися в даний момент. Автори пропонують альтернативний шлях під назвою Програми LLM, що можна розглядати як розвиток ін-контекстного навчання.

Програми LLM: новий шлях до тонкої настройки нейронних моделей у складних ситуаціях

Рекомендується: Prompt Engineering Ultimate Guide 2023

LLM вбудований в програму (у звичайній мова програмування, наприклад, у Python). Цей зовнішній код відповідає за збереження стану та підтримку моделі крок за кроком. Він має кілька основних переваг: мови програмування адаптовані для цього, розмір доступного контексту зростає, а кроки не заважають один одному. Ключем до вирішення проблеми за допомогою програми LLM є здатність розкласти рішення проблеми на послідовність простіших кроків. Цей підхід відрізняється від попередніх робіт, де модель використовувала зовнішні інструменти, такі як калькулятори або інтерпретатори коду підтримувати держ. Цей підхід хороший тим, що таким чином можна описати складну та розповсюджену задачу, полегшуючи тестування, налагодження та оцінку якості.

Крім того, немає перешкод між кроками, що полегшує роботу з LLM. Системи запитань-відповідей також не є новими; вони існували задовго до LLM. Як зараз вирішується завдання відповіді на запитання?

Сайти часто оновлюються, тому a заморожена модель не є варіантом; він швидко застаріє і не зможе відповісти на питання про нові продукти. Постійне перенавчання моделі для кожного оновлення нереальний варіант: це дорого і довго. Натомість сторінки веб-сайту зазвичай індексуються, поміщаються в якусь базу даних і часто векторизуються. За запитом користувача відповідні документи витягуються та надсилаються як контекст до LLM.

У такій парадигмі проблема природно вирішується через програму LLM. Як бонус це стає можливим реалізувати складнішу багатопрохідну логіку, яка не повністю вписуватиметься в контекст.

Перевірено на Набір даних StrategyQA містить задачі бінарної класифікації, вирішення яких передбачає багатостороннє міркування. На кшталт «Чи проникає сонячне світло в найглибше місце Чорного моря?». Щоб відповісти, потрібно знайти максимальну глибину (2 км) і наскільки глибоко проникає світло у воду (1 км), а потім зробити висновок. Давайте розглянемо інший приклад запитання: «Чи користувався Арістотель ноутбуком?» Це запитання не є таким простим і не відповідає послідовності кроків міркування чітко, як «Чи був жив Арістотель, коли був винайдений ноутбук?» робить. Набір даних зосереджений на питаннях, де така послідовність неявна. У наборі даних лише 2,780 запитань, з яких лише 918 містять абзаци з доказами, які підкріплюють усі кроки аргументації. У поточній роботі він обмежується цією підмножиною; інакше нам довелося б покладатися на те, що LLM дізнається деякі факти під час попереднього навчання.

OPT-175B LLM за замовчуванням не дуже добре виконує інструкції; йому не потрібно було точно налаштовувати інструкції, ні розмовні дані. Щоб вирішити проблему відповіді на питання, що підтверджується доказами, розділено на етап фільтрації даних і етап пошуку дерева.

На етапі фільтрації, отримавши питання, розробники проходять по всіх абзацах і вибирають найбільш актуальні. Наприклад, за допомогою короткої підказки попросіть магістра відповісти (так/ні), чи відповідає певний абзац поставленому питанню. Перевірено на підмножині 300 StrategyQA, де кожне запитання зіставлялося з абзацом, релевантним чи ні, 50/50. OPT-175B і text-davinci-002 не мають a набагато вищої якості порівняно з випадковим базовим рівнем: до 56%. Більш просунутий 11B Tk-Instruct не набагато краще – 61.6%.

Через низьку якість цього підходу було складено альтернативу, яка враховує середню негативну логарифм правдоподібності (NLL) питання в поєднанні з попереднім абзацом тексту, а потім ранжує результати. Оцінено на наборі даних, де для кожного запитання було 100 абзаців, і лише один був релевантним (тому випадкове вгадування дає 1%). Ми отримали точність топ-1 на рівні 79% і топ-5 на рівні 93%. Для цього розрахунку зазвичай потрібен доступ до самої моделі, що не завжди здійснюється в API.

Далі йде етап побудови вихідних ланцюжків. Це робиться шляхом пошуку в дереві, де запитання є коренем, і на кожному рівні є багато абзаців із можливими доказами, які використовуються як контекст для створення наступного кроку. Кожен шлях через дерево є потенційним вихідним ланцюгом. Нереально зробити висновок щодо всіх можливих ланцюжків, тому всі доступні ланцюги ранжуються, а ланцюжок з найвищим рангом розширюється. Ось така варіація променевого пошуку. Процес зупиняється, коли отримано відповідь або пройдено максимально допустиму кількість кроків.

Найважливішими деталями є дві стратегії ранжирування, перевірені для кроку пошуку дерева. Перша стратегія базується на середньому NLL для всього ланцюга, тоді як друга стратегія розглядає середню різницю в NLL з абзацом і без нього (P), із запитанням і без нього (Q). Для доступних 918 запитань від StrategyQA цей підхід значно покращує якість відповідей порівняно з базовим рівнем із CoT (60%); обидва варіанти пошуку дають близько 66% (стратегія з трохи вищою дельтою). Якщо передати золоті факти, якість стає близько 81%, що є верхньою межею для OPT. Даркланг, здається, йде кудись туди, але дещо іншим шляхом.

Стаття написана на основі Telegram після.

Докладніше про ШІ:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.

інші статті

Дамір Ялалов