LLM програми: Новият път към фина настройка на невронни модели в сложни ситуации
Накратко
Авторите предлагат алтернативен път, наречен LLM програми, който може да се разглежда като развитие на обучение в контекст.
Ключът към решаването на проблем чрез програмата LLM е способността да се разлага решението на проблем в последователност от по-прости стъпки.
Има две основни области на персонализиране на LLM: фина настройка (или допълнително обучение) на предварително обучения базов модел и обучение в контекст. Фината настройка изисква значителни изчислителни ресурси, събиране на данни и инфраструктура, за да се направи това и след това да се хостват фино настроени модели. Междувременно обучението в контекст включва компилиране на правилната подкана с примери за решаване на проблема, като верига от мисли (CoT). Съществуват обаче някои трудности, като ограничения размер на текста, който може да бъде изпратен към модела, и факта, че при сложна многопроходна подкана стъпките могат да си пречат една на друга и моделът може да бъде разсеян от нещо че не трябва да се разсейва в момента. Авторите предлагат алтернативен път, наречен LLM програми, което може да се разглежда като развитие на обучение в контекст.
Препоръчва се: Prompt Engineering Ultimate Guide 2023 |
LLM е вграден в програмата (в конвенционален програмен език, например в Python). Този външен код отговаря за съхраняването на състоянието и поддържането на модела стъпка по стъпка. Той има няколко основни предимства: езиците за програмиране са адаптирани за това, размерът на наличния контекст нараства и стъпките не си пречат една на друга. Ключът към решаването на проблем чрез програмата LLM е способността да се разлага решението на проблем в последователност от по-прости стъпки. Този подход се различава от предишните работи, където моделът използва външни инструменти като калкулатори или кодови интерпретатори за поддържане на държавата. Този подход е добър, защото е възможно да се опише сложна и разпространяваща се задача по този начин, което улеснява тестването, отстраняването на грешки и оценката на качеството.
Освен това няма намеса между стъпките, което улеснява работата с LLM. Системите въпрос-отговори също не са нови; те са съществували много преди LLM. Как сега се решава задачата за отговаряне на въпроси?
Сайтовете се актуализират често, така че a замразен модел не е опция; той бързо ще остарее и няма да може да отговаря на въпроси за нови продукти. Постоянното преобучение на модела за всяка актуализация не е реалистична опция: скъпо е и отнема много време. Вместо това страниците на уебсайта обикновено се индексират, поставят в някаква база данни и често се векторизират. По искане на потребител съответните документи се изтеглят и изпращат като контекст към LLM.
В такава парадигма проблемът се решава естествено чрез програмата LLM. Като бонус, то става възможно за прилагане на по-сложна многопроходна логика, която няма да се впише напълно в контекста.
Тествано на Набор от данни StrategyQA съдържащи проблеми с двоична класификация, чието решение включва многостранно разсъждение. Като „Прониква ли слънчевата светлина в най-дълбокото място на Черно море?“. За да отговорите, трябва да намерите максималната дълбочина (2 км) и колко дълбоко светлината прониква във водата (1 км) и след това да направите заключение. Нека да разгледаме друг примерен въпрос: „Аристотел използвал ли е лаптоп?“ Този въпрос не е толкова ясен и не следва изрично последователността от стъпки на разсъждение като „Жив ли е Аристотел, когато е изобретен лаптопът?“ прави. Наборът от данни се фокусира върху въпроси, при които такава последователност се подразбира. Има само 2,780 въпроса в набора от данни, от които само 918 имат параграфи с доказателства, които подсилват всички стъпки на разсъжденията. В настоящата работа се ограничава до това подмножество; в противен случай ще трябва да разчитаме на LLM да научи някои факти по време на предварителното обучение.
OPT-175B LLM по подразбиране не е много добър в следването на инструкции; не трябваше да прецизира инструкциите, нито данните от разговора. За решаване на подкрепения с доказателства проблем с отговаряне на въпроси е разделен на етап на филтриране на данни и етап на дървовидно търсене.
На етапа на филтриране, имайки въпрос, разработчиците преминават през всички параграфи и избират най-подходящите. Например, с подкана от няколко изстрела, помолете LLM да отговори (да/не) дали даден параграф е подходящ за зададения въпрос. Тествано на 300 подмножества на StrategyQA, където всеки въпрос беше съпоставен с абзац, подходящ или не, 50/50. OPT-175B и text-davinci-002 нямат a много по-високо качество отколкото произволна базова линия: до 56%. По-напредналите 11B Tk-Instruct не е много по-добре при 61.6%.
Поради лошото качество на този подход беше съставена алтернатива, която отчита средната отрицателна логаритмична вероятност (NLL) на въпроса в комбинация с предходния параграф от текста и след това класира резултатите. Оценява се върху набор от данни, където за всеки въпрос имаше 100 параграфа и само един беше уместен (така че произволното отгатване дава 1%). Получихме топ 1 точност при 79% и топ 5 при 93%. За това изчисление обикновено се нуждаете от достъп до самия модел, което не винаги се прави в API.
Следва етапът на изграждане на изходни вериги. Това се прави чрез търсене в дърво, където въпросът е коренът, и на всяко ниво има много параграфи с възможни доказателства, използвани като контекст за генериране на следващата стъпка. Всеки път през дървото е потенциална изходна верига. Нереалистично е да се направи заключение за всички възможни вериги, така че всички налични вериги се класират, а веригата с най-висок ранг се разширява. Това е такъв вариант на търсене на лъч. Процесът спира, когато се даде отговор или измине максималният разрешен брой стъпки.
Най-важните детайли са двете стратегии за класиране, тествани за стъпката на дървовидно търсене. Първата стратегия се основава на средната NLL на цялата верига, докато втората стратегия разглежда средната разлика в NLL с и без параграф (P), с и без въпрос (Q). При наличните 918 въпроса от StrategyQA, този подход значително подобрява качеството на отговора спрямо изходното ниво с CoT (60%); и двете опции за търсене дават около 66% (стратегията с малко по-висока делта). Ако се подадат златни факти, качеството става около 81%, което е горната граница за OPT. Darklang изглежда отива там някъде, но по малко по-различен начин.
Статията е базирана на Telegram пускат.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.