Gali 15, 2023

LLM programos: naujas kelias į neuroninių modelių koregavimą sudėtingose situacijose

by Damiras Jalalovas

Paskelbta: 15 m. gegužės 2023 d., 3:42 val. Atnaujinta: 15 m. gegužės 2023 d., 3:42

by Karolina Gaszcz

Redaguota ir patikrinta faktais: 15 m. gegužės 2023 d. 3 val

Trumpai

Autoriai siūlo alternatyvų kelią, vadinamą LLM programomis, kuri gali būti laikoma kontekstinio mokymosi plėtra.

Raktas sprendžiant problemą per LLM programą yra galimybė išskaidyti problemos sprendimą į paprastesnių veiksmų seką.

Yra dvi pagrindinės LLM pritaikymo sritys: iš anksto paruošto bazinio modelio tobulinimas (arba papildomas mokymas) ir mokymasis kontekste. Tiksliam derinimui reikalingi dideli skaičiavimo ištekliai, duomenų rinkimas ir infrastruktūra, kad tai būtų galima atlikti, o tada priglobti tiksliai suderintus modelius. Tuo tarpu kontekstinis mokymasis apima tinkamo raginimo sudarymą su problemos sprendimo pavyzdžiais, tokiais kaip minties grandinė (CoT). Tačiau yra tam tikrų sunkumų, pvz., ribotas teksto, kurį galima pateikti modeliui, dydis ir tai, kad sudėtingame kelių eilių raginimo žingsniai gali trukdyti vienas kitam, o modelis gali būti dėl ko nors atitrauktas. kad šiuo metu nederėtų blaškytis. Autoriai siūlo alternatyvų kelią, vadinamą LLM programos, kurį galima laikyti mokymosi kontekste plėtra.

LLM programos: naujas kelias į neuroninių modelių koregavimą sudėtingose situacijose

Rekomenduojama: Prompt Engineering Ultimate Guide 2023

LLM yra integruota į programą (įprastoje programavimo kalba, pavyzdžiui, Python). Šis išorinis kodas yra atsakingas už būsenos saugojimą ir modelio palaikymą žingsnis po žingsnio. Jis turi keletą esminių privalumų: tam pritaikytos programavimo kalbos, didėja turimo konteksto dydis, o veiksmai netrukdo vienas kitam. Raktas sprendžiant problemą per LLM programą yra galimybė išskaidyti problemos sprendimą į paprastesnių veiksmų seką. Šis metodas skiriasi nuo ankstesnių darbų, kur modeliui buvo naudojami išoriniai įrankiai, tokie kaip skaičiuotuvai arba kodų interpretatoriai išlaikyti valstybę. Šis metodas yra geras, nes taip galima apibūdinti sudėtingą ir plintančią užduotį, todėl lengviau patikrinti, derinti ir įvertinti kokybę.

Be to, tarp žingsnių nėra trukdžių, todėl dirbti su LLM lengviau. Klausimų ir atsakymų sistemos taip pat nėra naujiena; jie egzistavo ilgai prieš LLM. Kaip dabar sprendžiama užduotis atsakyti į klausimus?

Svetainės dažnai atnaujinamos, todėl a šaldytas modelis nėra pasirinkimas; ji greitai pasens ir negalės atsakyti į klausimus apie naujus produktus. Nuolatinis modelio perkvalifikavimas kiekvienam atnaujinimui nėra realus pasirinkimas: tai brangu ir atima daug laiko. Vietoj to, svetainės puslapiai paprastai indeksuojami, įtraukiami į kokią nors duomenų bazę ir dažnai vektorizuojami. Vartotojui pageidaujant, atitinkami dokumentai ištraukiami ir siunčiami kaip kontekstas LLM.

Esant tokiai paradigmai, problema natūraliai išsprendžiama per LLM programą. Kaip premiją, tai tampa įmanoma įgyvendinti sudėtingesnę kelių praėjimų logiką, kuri visiškai netilptų į kontekstą.

Išbandyta ant StrategyQA duomenų rinkinys turinčios dvejetainės klasifikacijos uždavinius, kurių sprendimas apima daugiapusį samprotavimą. Kaip „Ar saulės šviesa prasiskverbia į giliausią Juodosios jūros vietą? Norėdami atsakyti, turite rasti didžiausią gylį (2 km) ir kaip giliai šviesa prasiskverbia į vandenį (1 km), tada padaryti išvadą. Pažvelkime į kitą pavyzdinį klausimą: „Ar Aristotelis naudojo nešiojamąjį kompiuterį? Šis klausimas nėra toks paprastas ir jame aiškiai nesilaikoma samprotavimo veiksmų sekos, kaip „Ar Aristotelis buvo gyvas, kai buvo išrastas nešiojamasis kompiuteris? daro. Duomenų rinkinyje dėmesys sutelkiamas į klausimus, kuriuose tokia seka yra numanoma. Duomenų rinkinyje yra tik 2,780 918 klausimų, iš kurių tik XNUMX yra pastraipų su įrodymais, kurie sustiprina visus samprotavimo veiksmus. Dabartiniame darbe jis apsiriboja šiuo pogrupiu; kitu atveju turėtume pasikliauti tuo, kad LLM išmoks kai kuriuos faktus išankstinio mokymo metu.

Pagal numatytuosius nustatymus OPT-175B LLM nelabai gerai seka instrukcijas; jai nereikėjo koreguoti instrukcijų ar pokalbio duomenų. Norėdami išspręsti įrodymais pagrįstą klausimų atsakymų problemą, yra padalintas į duomenų filtravimo etapą ir medžio paieškos etapą.

Filtravimo etape, turėdami klausimą, kūrėjai pereina visas pastraipas ir pasirenka tinkamiausias. Pavyzdžiui, su kelių kadrų raginimu paprašykite LLM atsakyti (taip/ne), ar tam tikra pastraipa yra susijusi su užduotu klausimu. Išbandyta 300 StrategyQA pogrupyje, kur kiekvienas klausimas buvo suderintas su pastraipa, tinkama ar ne, 50/50. OPT-175B ir text-davinci-002 neturi a daug aukštesnės kokybės nei atsitiktinė pradinė linija: iki 56%. Kuo labiau pažengęs 11B Tk-Instruct nėra daug geresnis – 61.6 proc.

Dėl prastos šio metodo kokybės buvo sudaryta alternatyva, kurioje atsižvelgiama į klausimo vidutinę neigiamą logaritminę tikimybę (NLL) kartu su ankstesne teksto pastraipa, o tada reitinguojami rezultatai. Vertinama pagal duomenų rinkinį, kuriame kiekvienam klausimui buvo 100 pastraipų ir tik viena buvo svarbi (taigi atsitiktinis spėjimas duoda 1%). Gavome geriausio 1 tikslumą 79%, o 5 - 93%. Šiam skaičiavimui paprastai reikia prieigos prie paties modelio, o tai ne visada daroma API.

Toliau ateina išvesties grandinių kūrimo etapas. Tai atliekama per paiešką medyje, kur klausimas yra šaknis, ir kiekviename lygyje yra daug pastraipų su galimais įrodymais, kurie naudojami kaip kontekstas kitam žingsniui generuoti. Kiekvienas kelias per medį yra potenciali išvesties grandinė. Nerealu daryti išvadas apie visas įmanomas grandines, todėl visos turimos grandinės reitinguojamos, o aukščiausio rango grandinė išplečiama. Tai tokia spindulių paieškos variacija. Procesas sustabdomas, kai gaunamas atsakymas arba praeina didžiausias leistinas veiksmų skaičius.

Svarbiausia informacija yra dvi reitingavimo strategijos, išbandytos medžio paieškos žingsnyje. Pirmoji strategija grindžiama vidutiniu visos grandinės NLL, o antrojoje strategijoje nagrinėjamas vidutinis NLL skirtumas su pastraipa ir be jos (P), su klausimu ir be jo (Q). Dėl turimų 918 StrategyQA klausimų šis metodas žymiai pagerina atsakymų kokybę, palyginti su pradiniu CoT lygiu (60 %); abi paieškos parinktys duoda apie 66 % (strategija su šiek tiek didesne delta). Jei pateikiami auksiniai faktai, kokybė tampa apie 81%, o tai yra viršutinė OPT riba. Atrodo, kad Darklangas ten eina kažkur, bet šiek tiek kitaip.

Straipsnis parengtas remiantis telegrama paštu.

Skaitykite daugiau apie AI:

Žymos:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.

Daugiau straipsnių

Damiras Jalalovas