Новини Технологии
Май 15, 2023

LLM програми: Новият път към фина настройка на невронни модели в сложни ситуации

Накратко

Авторите предлагат алтернативен път, наречен LLM програми, който може да се разглежда като развитие на обучение в контекст.

Ключът към решаването на проблем чрез програмата LLM е способността да се разлага решението на проблем в последователност от по-прости стъпки.

Има две основни области на персонализиране на LLM: фина настройка (или допълнително обучение) на предварително обучения базов модел и обучение в контекст. Фината настройка изисква значителни изчислителни ресурси, събиране на данни и инфраструктура, за да се направи това и след това да се хостват фино настроени модели. Междувременно обучението в контекст включва компилиране на правилната подкана с примери за решаване на проблема, като верига от мисли (CoT). Съществуват обаче някои трудности, като ограничения размер на текста, който може да бъде изпратен към модела, и факта, че при сложна многопроходна подкана стъпките могат да си пречат една на друга и моделът може да бъде разсеян от нещо че не трябва да се разсейва в момента. Авторите предлагат алтернативен път, наречен LLM програми, което може да се разглежда като развитие на обучение в контекст.

LLM програми: Новият път към фина настройка на невронни модели в сложни ситуации
Препоръчва се: Prompt Engineering Ultimate Guide 2023

LLM е вграден в програмата (в конвенционален програмен език, например в Python). Този външен код отговаря за съхраняването на състоянието и поддържането на модела стъпка по стъпка. Той има няколко основни предимства: езиците за програмиране са адаптирани за това, размерът на наличния контекст нараства и стъпките не си пречат една на друга. Ключът към решаването на проблем чрез програмата LLM е способността да се разлага решението на проблем в последователност от по-прости стъпки. Този подход се различава от предишните работи, където моделът използва външни инструменти като калкулатори или кодови интерпретатори за поддържане на държавата. Този подход е добър, защото е възможно да се опише сложна и разпространяваща се задача по този начин, което улеснява тестването, отстраняването на грешки и оценката на качеството.

Освен това няма намеса между стъпките, което улеснява работата с LLM. Системите въпрос-отговори също не са нови; те са съществували много преди LLM. Как сега се решава задачата за отговаряне на въпроси?

Сайтовете се актуализират често, така че a замразен модел не е опция; той бързо ще остарее и няма да може да отговаря на въпроси за нови продукти. Постоянното преобучение на модела за всяка актуализация не е реалистична опция: скъпо е и отнема много време. Вместо това страниците на уебсайта обикновено се индексират, поставят в някаква база данни и често се векторизират. По искане на потребител съответните документи се изтеглят и изпращат като контекст към LLM.

В такава парадигма проблемът се решава естествено чрез програмата LLM. Като бонус, то става възможно за прилагане на по-сложна многопроходна логика, която няма да се впише напълно в контекста.

Тествано на Набор от данни StrategyQA съдържащи проблеми с двоична класификация, чието решение включва многостранно разсъждение. Като „Прониква ли слънчевата светлина в най-дълбокото място на Черно море?“. За да отговорите, трябва да намерите максималната дълбочина (2 км) и колко дълбоко светлината прониква във водата (1 км) и след това да направите заключение. Нека да разгледаме друг примерен въпрос: „Аристотел използвал ли е лаптоп?“ Този въпрос не е толкова ясен и не следва изрично последователността от стъпки на разсъждение като „Жив ли е Аристотел, когато е изобретен лаптопът?“ прави. Наборът от данни се фокусира върху въпроси, при които такава последователност се подразбира. Има само 2,780 въпроса в набора от данни, от които само 918 имат параграфи с доказателства, които подсилват всички стъпки на разсъжденията. В настоящата работа се ограничава до това подмножество; в противен случай ще трябва да разчитаме на LLM да научи някои факти по време на предварителното обучение.

OPT-175B LLM по подразбиране не е много добър в следването на инструкции; не трябваше да прецизира инструкциите, нито данните от разговора. За решаване на подкрепения с доказателства проблем с отговаряне на въпроси е разделен на етап на филтриране на данни и етап на дървовидно търсене.

На етапа на филтриране, имайки въпрос, разработчиците преминават през всички параграфи и избират най-подходящите. Например, с подкана от няколко изстрела, помолете LLM да отговори (да/не) дали даден параграф е подходящ за зададения въпрос. Тествано на 300 подмножества на StrategyQA, където всеки въпрос беше съпоставен с абзац, подходящ или не, 50/50. OPT-175B и text-davinci-002 нямат a много по-високо качество отколкото произволна базова линия: до 56%. По-напредналите 11B Tk-Instruct не е много по-добре при 61.6%.

Поради лошото качество на този подход беше съставена алтернатива, която отчита средната отрицателна логаритмична вероятност (NLL) на въпроса в комбинация с предходния параграф от текста и след това класира резултатите. Оценява се върху набор от данни, където за всеки въпрос имаше 100 параграфа и само един беше уместен (така че произволното отгатване дава 1%). Получихме топ 1 точност при 79% и топ 5 при 93%. За това изчисление обикновено се нуждаете от достъп до самия модел, което не винаги се прави в API.

Следва етапът на изграждане на изходни вериги. Това се прави чрез търсене в дърво, където въпросът е коренът, и на всяко ниво има много параграфи с възможни доказателства, използвани като контекст за генериране на следващата стъпка. Всеки път през дървото е потенциална изходна верига. Нереалистично е да се направи заключение за всички възможни вериги, така че всички налични вериги се класират, а веригата с най-висок ранг се разширява. Това е такъв вариант на търсене на лъч. Процесът спира, когато се даде отговор или измине максималният разрешен брой стъпки.

Най-важните детайли са двете стратегии за класиране, тествани за стъпката на дървовидно търсене. Първата стратегия се основава на средната NLL на цялата верига, докато втората стратегия разглежда средната разлика в NLL с и без параграф (P), с и без въпрос (Q). При наличните 918 въпроса от StrategyQA, този подход значително подобрява качеството на отговора спрямо изходното ниво с CoT (60%); и двете опции за търсене дават около 66% (стратегията с малко по-висока делта). Ако се подадат златни факти, качеството става около 81%, което е горната граница за OPT. Darklang изглежда отива там някъде, но по малко по-различен начин.

Статията е базирана на Telegram пускат.

Прочетете повече за AI:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Injective обединява усилията си с AltLayer, за да внесе повторно залагане на сигурност в inEVM
Бизнес Новини Технологии
Injective обединява усилията си с AltLayer, за да внесе повторно залагане на сигурност в inEVM
Май 3, 2024
Masa се обединява с Teller, за да въведе MASA Lending Pool, позволяващ USDC заемане на база
пазари Новини Технологии
Masa се обединява с Teller, за да въведе MASA Lending Pool, позволяващ USDC заемане на база
Май 3, 2024
Velodrome пуска бета версия на Superchain през следващите седмици и се разширява в OP Stack Layer 2 Blockchains
пазари Новини Технологии
Velodrome пуска бета версия на Superchain през следващите седмици и се разширява в OP Stack Layer 2 Blockchains
Май 3, 2024
CARV обявява партньорство с Aethir за децентрализиране на своя слой данни и разпределяне на награди
Бизнес Новини Технологии
CARV обявява партньорство с Aethir за децентрализиране на своя слой данни и разпределяне на награди
Май 3, 2024
CRYPTOMERIA LABS PTE. LTD.