Maj 15, 2023

LLM-program: Den nya vägen till att finjustera neurala modeller i komplexa situationer

Publicerad: 15 maj 2023 kl. 3 Uppdaterad: 42 maj 15 kl. 2023

Redigerad och faktagranskad: 15 maj 2023 kl. 3:42

I korthet

Författarna föreslår en alternativ väg som kallas LLM-program, som kan betraktas som utveckling av inlärning i sammanhang.

Nyckeln till att lösa ett problem genom LLM-programmet är förmågan att dekomponera lösningen på ett problem i en sekvens av enklare steg.

Det finns två huvudområden för LLM-anpassning: finjustering (eller ytterligare utbildning) den förtränade basmodellen och inlärning i sammanhang. Finjustering kräver betydande datorresurser, datainsamling och infrastruktur för att göra detta och sedan vara värd för finjusterade modeller. Samtidigt innebär inlärning i sammanhanget att man sammanställer rätt uppmaning med exempel på hur man löser problemet, såsom Chain-of-Thought (CoT). Det finns dock vissa svårigheter, till exempel den begränsade storleken på texten som kan skickas till modellen och det faktum att i en komplex prompt med flera steg kan stegen störa varandra, och modellen kan distraheras av något som inte bör distraheras just nu. Författarna föreslår en alternativ väg som kallas LLM-program, vilket kan betraktas som utvecklingen av inlärning i sammanhang.

LLM-program: Den nya vägen till att finjustera neurala modeller i komplexa situationer

Rekommenderas: Snabb Engineering Ultimate Guide 2023

LLM är inbyggt i programmet (i en konventionell programmeringsspråkt.ex. i Python). Denna externa kod är ansvarig för att lagra tillståndet och underhålla modellen steg för steg. Det har några stora fördelar: Programmeringsspråk är anpassade för detta, storleken på det tillgängliga sammanhanget växer och stegen stör inte varandra. Nyckeln till att lösa ett problem genom LLM-programmet är förmågan att dekomponera lösningen på ett problem i en sekvens av enklare steg. Detta tillvägagångssätt skiljer sig från tidigare arbeten, där modellen använde externa verktyg som miniräknare eller kodtolkare att upprätthålla staten. Detta tillvägagångssätt är bra eftersom det är möjligt att beskriva en komplex och spridd uppgift på detta sätt, vilket gör det lättare att testa, felsöka och utvärdera kvalitet.

Dessutom finns det ingen störning mellan stegen, vilket gör det lättare att arbeta med LLM. Frågesvarssystem är inte heller nya; de har funnits långt före LLM. Hur löses uppgiften att svara på frågor nu?

Webbplatser uppdateras ofta, så en frusen modell är inte ett alternativ; den kommer snabbt att bli föråldrad och kommer inte att kunna svara på frågor om nya produkter. Konstant omskolning av modellen för varje uppdatering är inte ett realistiskt alternativ: det är dyrt och tidskrävande. Istället är en webbplatss sidor vanligtvis indexerade, placerade i någon form av databas och ofta vektoriserade. På en användares begäran hämtas relevanta dokument och skickas som ett sammanhang till LLM.

I ett sådant paradigm löses problemet naturligt genom LLM-programmet. Som en bonus, det blir möjligt att implementera mer komplex flerpassagelogik som inte skulle passa helt in i sammanhanget.

Testad på StrategiQA-datauppsättning som innehåller binära klassificeringsproblem, vars lösning involverar flervägsresonemang. Som "Tränger solljus in i Svarta havets djupaste plats?". För att svara måste du hitta det maximala djupet (2 km) och hur djupt ljus som tränger igenom vatten (1 km), och sedan dra en slutsats. Låt oss ta en titt på en annan exempelfråga: "Använde Aristoteles en bärbar dator?" Den här frågan är inte lika enkel och följer inte sekvensen av resonemangssteg uttryckligen som "Levde Aristoteles när den bärbara datorn uppfanns?" gör. Datauppsättningen fokuserar på frågor där en sådan sekvens är implicit. Det finns bara 2,780 918 frågor i datasetet, varav endast XNUMX har stycken med bevis som förstärker alla steg i resonemanget. I nuvarande arbete begränsar det till denna delmängd; annars skulle vi behöva lita på att LLM lär sig lite fakta under förträningen.

OPT-175B LLM är som standard inte särskilt bra på att följa instruktioner; det behövde inte finjustera instruktioner eller på konversationsdata. För att lösa det evidensstödda frågesvarsproblemet är det uppdelat i ett datafiltreringssteg och ett trädsökningssteg.

På filtreringsstadiet, med en fråga, går utvecklare igenom alla stycken och väljer de mest relevanta. Till exempel, med ett fåtal skott, be LLM att svara (ja/nej) om ett visst stycke är relevant för den ställda frågan. Testad på en 300 delmängd av StrategyQA, där varje fråga matchades med ett stycke, relevant eller inte, 50/50. OPT-175B och text-davinci-002 har inte en mycket högre kvalitet än en slumpmässig baslinje: upp till 56 %. Ju mer avancerade 11B Tk-instruktion är inte mycket bättre på 61.6%.

På grund av den dåliga kvaliteten på detta tillvägagångssätt sattes ett alternativ samman som tar hänsyn till den genomsnittliga negativa log-sannolikheten (NLL) för frågan i kombination med föregående textstycke och sedan rangordnar resultaten. Utvärderad på ett dataset där det för varje fråga fanns 100 stycken, och endast ett var relevant (så slumpmässig gissning ger 1%). Vi fick topp-1-noggrannhet på 79% och topp-5 på 93%. För denna beräkning behöver du vanligtvis tillgång till själva modellen, vilket inte alltid görs i API:et.

Därefter kommer steget att bygga utgångskedjor. Detta görs genom en sökning genom ett träd där frågan är roten, och på varje nivå finns det många stycken med möjliga bevis som används som sammanhang för att generera nästa steg. Varje väg genom trädet är en potentiell utgående kedja. Det är orealistiskt att dra en slutsats om alla möjliga kedjor, så alla tillgängliga kedjor rankas, och den högst rankade kedjan utökas. Detta är en sådan variant av strålsökning. Processen stoppas när ett svar görs eller det högsta tillåtna antalet steg har passerats.

De viktigaste detaljerna är de två rankningsstrategier som testats för trädsökningssteget. Den första strategin är baserad på den genomsnittliga NLL för hela kedjan, medan den andra strategin tittar på den genomsnittliga skillnaden i NLL med och utan ett stycke (P), med och utan fråga (Q). På de tillgängliga 918 frågorna från StrategyQA förbättrar detta tillvägagångssätt avsevärt svarskvaliteten i förhållande till baslinjen med CoT (60 %); båda sökalternativen ger runt 66 % (strategin med något högre delta). Om gyllene fakta lämnas in blir kvaliteten runt 81 %, vilket är den övre gränsen för OPT. Darklang verkar gå dit någonstans men på ett lite annorlunda sätt.

Artikeln är baserad på Telegram inlägg.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov