Може 15, 2023

ЛЛМ програми: Нови пут до финог подешавања неуронских модела у сложеним ситуацијама

by Дамир Иалалов

Објављено: 15. маја 2023. у 3:42 Ажурирано: 15. маја 2023. у 3:42

by Каролина Гасзцз

Измењено и проверено: 15. маја 2023. у 3:42

Укратко

Аутори предлажу алтернативни пут под називом ЛЛМ програми, који се може сматрати развојем учења у контексту.

Кључ за решавање проблема кроз ЛЛМ програм је способност да се решење проблема разложи на низ једноставнијих корака.

Постоје две главне области прилагођавања ЛЛМ-а: фино подешавање (или додатна обука) претходно обученог основног модела и учење у контексту. Фино подешавање захтева значајне рачунарске ресурсе, прикупљање података и инфраструктуру да би се ово урадило, а затим угостили фино подешени модели. У међувремену, учење у контексту укључује састављање правог упутства са примерима решавања проблема, као што је Ланац размишљања (ЦоТ). Међутим, постоје неке потешкоће, као што су ограничена величина текста који се може доставити моделу и чињеница да у сложеном промпту са више пролаза, кораци могу да ометају једни друге, а модел може бити ометен нечим то не би требало да се омета у овом тренутку. Аутори предлажу алтернативни пут тзв ЛЛМ програми, што се може сматрати развојем учења у контексту.

ЛЛМ програми: Нови пут до финог подешавања неуронских модела у сложеним ситуацијама

Препоручује се: Промпт Енгинееринг Ултимате Гуиде 2023

ЛЛМ је уграђен у програм (у конвенционалном програмски језик, на пример, у Пајтону). Овај екстерни код је одговоран за чување стања и одржавање модела корак по корак. Има неколико великих предности: Програмски језици су прилагођени за ово, величина доступног контекста расте, а кораци се не мешају једни у друге. Кључ за решавање проблема кроз ЛЛМ програм је способност да се решење проблема разложи на низ једноставнијих корака. Овај приступ се разликује од претходних радова, где је модел користио екстерне алате као што су калкулатори или тумачи кодова да одржи државу. Овај приступ је добар јер је на овај начин могуће описати сложен задатак који се шири, што олакшава тестирање, отклањање грешака и процену квалитета.

Поред тога, нема сметњи између корака, што олакшава рад са ЛЛМ. Ни системи питања-одговори нису нови; постојали су много пре ЛЛМ-а. Како је сада решен задатак одговарања на питања?

Сајтови се често ажурирају, тако да а замрзнути модел није опција; брзо ће застарети и неће моћи да одговори на питања о новим производима. Стална преквалификација модела за свако ажурирање није реална опција: скупо је и дуготрајно. Уместо тога, странице веб-сајта се обично индексирају, стављају у неку врсту базе података и често векторске. На захтев корисника, релевантни документи се извлаче и шаљу као контекст ЛЛМ.

У таквој парадигми, проблем се природно решава кроз ЛЛМ програм. Као бонус, то постаје могуће да имплементира сложенију логику више пролаза која се не би у потпуности уклапала у контекст.

Тестирано на СтратегиКА скуп података који садрже проблеме бинарне класификације, чије решење укључује вишесмерно резоновање. Као „Да ли сунчева светлост продире у најдубље место Црног мора?“. Да бисте одговорили, морате пронаћи максималну дубину (2 км) и колико дубоко светлост продире у воду (1 км), а затим извући закључак. Хајде да погледамо још један пример питања: „Да ли је Аристотел користио лаптоп?“ Ово питање није тако једноставно и не прати редослед корака резоновања експлицитно као „Да ли је Аристотел био жив када је лаптоп измишљен?“ ради. Скуп података се фокусира на питања где је такав низ имплицитан. Постоји само 2,780 питања у скупу података, од којих само 918 има параграфе са доказима који поткрепљују све кораке образложења. У тренутном раду, ограничава се на овај подскуп; у супротном, морали бисмо се ослонити на то да ЛЛМ научи неке чињенице током предобуке.

ОПТ-175Б ЛЛМ, подразумевано, није баш добар у праћењу инструкција; није морао да фино подешава упутства нити конверзацијске податке. Да би се решио проблем одговора на питања заснован на доказима, подељен је на фазу филтрирања података и фазу претраге стабла.

У фази филтрирања, постављајући питање, програмери пролазе кроз све параграфе и бирају оне најрелевантније. На пример, уз помоћ неколико снимака, замолите ЛЛМ да одговори (да/не) да ли је дати параграф релевантан за постављено питање. Тестирано на 300 подскупа СтратегиКА, где је свако питање упарено са параграфом, релевантним или не, 50/50. ОПТ-175Б и текст-давинци-002 немају а много квалитетније од насумичне основне линије: до 56%. Што је напреднији 11Б Тк-Инструцт није много бољи са 61.6%.

Због лошег квалитета овог приступа, састављена је алтернатива која разматра просечну негативну лог-вероватноћу (НЛЛ) питања у комбинацији са претходним пасусом текста и затим рангира резултате. Процењено на скупу података где је за свако питање било 100 пасуса, а само један је био релевантан (тако да насумично погађање даје 1%). Добили смо топ-1 прецизност на 79% и топ-5 на 93%. За овај прорачун вам је обично потребан приступ самом моделу, што се не ради увек у АПИ-ју.

Следеће долази фаза изградње излазних ланаца. Ово се ради кроз претрагу кроз стабло где је питање корен, а на сваком нивоу постоји много параграфа са могућим доказима који се користе као контекст за генерисање следећег корака. Свака путања кроз дрво је потенцијални излазни ланац. Нереално је извући закључак о свим могућим ланцима, па се рангирају сви доступни ланци, а проширује се ланац највишег ранга. Ово је таква варијација претраживања зрака. Процес се зауставља када се одговори или је прошао максимални дозвољени број корака.

Најважнији детаљи су две стратегије рангирања које су тестиране за корак претраге стабла. Прва стратегија се заснива на просечном НЛЛ целог ланца, док друга стратегија гледа на просечну разлику у НЛЛ са и без параграфа (П), са и без питања (К). На доступних 918 питања из СтратегиКА, овај приступ значајно побољшава квалитет одговора у односу на основну линију са ЦоТ (60%); обе опције претраге дају око 66% (стратегија са нешто већом делтом). Ако се поднесу златне чињенице, квалитет постаје око 81%, што је горња граница за ОПТ. Чини се да Даркланг иде тамо негде, али на мало другачији начин.

Чланак је заснован на Телеграму пост.

Прочитајте више о АИ:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов