Maj 15, 2023

LLM-programmer: Den nye vej til at finjustere neurale modeller i komplekse situationer

by Damir Yalalov

Udgivet: 15. maj 2023 kl. 3 Opdateret: 42. maj 15 kl. 2023

by Karolina Gaszcz

Redigeret og faktatjekket: 15. maj 2023 kl. 3

Kort sagt

Forfatterne foreslår en alternativ vej kaldet LLM-programmer, som kan betragtes som udvikling af in-context learning.

Nøglen til at løse et problem gennem LLM-programmet er evnen til at dekomponere løsningen på et problem i en sekvens af enklere trin.

Der er to hovedområder for LLM-tilpasning: finjustering (eller yderligere træning) af den forudtrænede basismodel og læring i kontekst. Finjustering kræver betydelige computerressourcer, dataindsamling og infrastruktur for at gøre dette og derefter vært for finjusterede modeller. I mellemtiden involverer læring i kontekst at kompilere den rigtige prompt med eksempler på løsning af problemet, såsom Chain-of-Thought (CoT). Der er dog nogle vanskeligheder, såsom den begrænsede størrelse af teksten, der kan indsendes til modellen og det faktum, at i en kompleks multi-pass prompt, kan trinene forstyrre hinanden, og modellen kan blive distraheret af noget som ikke bør distraheres i øjeblikket. Forfatterne foreslår en alternativ vej kaldet LLM programmer, som kan betragtes som udvikling af kontekstindlæring.

LLM-programmer: Den nye vej til at finjustere neurale modeller i komplekse situationer

Anbefalet: Hurtig Engineering Ultimate Guide 2023

LLM er indbygget i programmet (i en konventionel programmeringssprog, for eksempel i Python). Denne eksterne kode er ansvarlig for lagring af tilstanden og vedligeholdelse af modellen trin for trin. Det har et par store fordele: Programmeringssprog er tilpasset til dette, størrelsen af den tilgængelige kontekst vokser, og trinene forstyrrer ikke hinanden. Nøglen til at løse et problem gennem LLM-programmet er evnen til at dekomponere løsningen på et problem i en sekvens af enklere trin. Denne tilgang adskiller sig fra tidligere værker, hvor modellen brugte eksterne værktøjer som lommeregnere el kode tolke at opretholde staten. Denne tilgang er god, fordi det er muligt at beskrive en kompleks og udbredende opgave på denne måde, hvilket gør det nemmere at teste, fejlsøge og evaluere kvalitet.

Derudover er der ingen interferens mellem trinene, hvilket gør det lettere at arbejde med LLM. Spørgsmål-svar-systemer er heller ikke nye; de har eksisteret længe før LLM'er. Hvordan løses opgaven med at besvare spørgsmål nu?

Sites opdateres ofte, så en frossen model er ikke en mulighed; det vil hurtigt blive forældet og vil ikke være i stand til at besvare spørgsmål om nye produkter. Konstant genoptræning af modellen for hver opdatering er ikke en realistisk mulighed: Det er dyrt og tidskrævende. I stedet er et websteds sider normalt indekseret, lagt i en slags database og ofte vektoriseret. På en brugers anmodning trækkes relevante dokumenter op og sendes som en kontekst til LLM.

I et sådant paradigme løses problemet naturligt gennem LLM-programmet. Som en bonus er det bliver muligt at implementere mere kompleks multi-pass logik, der ikke ville passe helt ind i konteksten.

Testet på StrategiQA datasæt indeholdende binære klassifikationsproblemer, hvis løsning involverer flervejsræsonnement. Som "trænger sollys ind i Sortehavets dybeste sted?". For at svare skal du finde den maksimale dybde (2 km) og hvor dybt lys trænger ind i vandet (1 km), og så drage en konklusion. Lad os se på et andet eksempelspørgsmål: "Brugte Aristoteles en bærbar computer?" Dette spørgsmål er ikke så ligetil og følger ikke sekvensen af begrundelsestrin eksplicit som "Var Aristoteles i live, da den bærbare computer blev opfundet?" gør. Datasættet fokuserer på spørgsmål, hvor en sådan sekvens er implicit. Der er kun 2,780 spørgsmål i datasættet, hvoraf kun 918 har paragraffer med beviser, der styrker alle trinene i ræsonnementet. I det nuværende arbejde begrænser det sig til denne delmængde; ellers ville vi være nødt til at stole på, at LLM lærer nogle fakta under fortræning.

OPT-175B LLM er som standard ikke særlig god til at følge instruktionerne; det behøvede ikke at finjustere instruktioner eller på samtaledata. For at løse det evidensstøttede spørgsmål-besvar problem, er opdelt i et datafiltreringstrin og et træsøgningstrin.

På filtreringsstadiet, med et spørgsmål, gennemgår udviklerne alle afsnittene og vælger de mest relevante. For eksempel, med en få-shot prompt, bed LLM om at svare (ja/nej), om et givet afsnit er relevant for det stillede spørgsmål. Testet på et 300-undersæt af StrategyQA, hvor hvert spørgsmål blev matchet med et afsnit, relevant eller ej, 50/50. OPT-175B og text-davinci-002 har ikke en meget højere kvalitet end en tilfældig baseline: op til 56 %. Jo mere avanceret 11B Tk-instruktion er ikke meget bedre med 61.6%.

På grund af den dårlige kvalitet af denne tilgang blev der sammensat et alternativ, der tager hensyn til den gennemsnitlige negative log-likelihood (NLL) af spørgsmålet i kombination med det foregående afsnit i teksten og derefter rangerer resultaterne. Vurderet på et datasæt, hvor der for hvert spørgsmål var 100 afsnit, og kun ét var relevant (så tilfældigt gæt giver 1%). Vi fik top-1-nøjagtighed på 79% og top-5 på 93%. Til denne beregning skal du normalt have adgang til selve modellen, hvilket ikke altid gøres i API'en.

Dernæst kommer stadiet med at bygge outputkæder. Dette gøres gennem en søgning gennem et træ, hvor spørgsmålet er roden, og på hvert niveau er der mange afsnit med mulige beviser brugt som kontekst til at generere det næste trin. Hver vej gennem træet er en potentiel outputkæde. Det er urealistisk at drage en konklusion på alle mulige kæder, så alle tilgængelige kæder rangeres, og den højest rangerende kæde udvides. Dette er sådan en variation af strålesøgning. Processen stopper, når et svar er lavet, eller det maksimalt tilladte antal trin er passeret.

De vigtigste detaljer er de to rangeringsstrategier, der er testet for træsøgningstrinnet. Den første strategi er baseret på den gennemsnitlige NLL for hele kæden, mens den anden strategi ser på den gennemsnitlige forskel i NLL med og uden et afsnit (P), med og uden spørgsmål (Q). På de tilgængelige 918 spørgsmål fra StrategyQA forbedrer denne tilgang signifikant svarkvaliteten i forhold til baseline med CoT (60 %); begge søgemuligheder giver omkring 66% (strategien med et lidt højere delta). Indsendes gyldne fakta, bliver kvaliteten omkring 81%, hvilket er den øvre grænse for OPT. Darklang ser ud til at gå der et sted, men på en lidt anden måde.

Artiklen er baseret på Telegrammet indlæg.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov