Nieuwsverslag Technologie
15 mei 2023

LLM-programma's: de nieuwe weg naar het afstemmen van neurale modellen in complexe situaties

In het kort

De auteurs stellen een alternatief pad voor, LLM-programma's genaamd, dat kan worden beschouwd als de ontwikkeling van in-context leren.

De sleutel tot het oplossen van een probleem via het LLM-programma is het vermogen om de oplossing voor een probleem op te splitsen in een reeks eenvoudigere stappen.

Er zijn twee hoofdgebieden van LLM-aanpassing: fijnafstemming (of aanvullende training) van het vooraf getrainde basismodel en in-context leren. Verfijning vereist aanzienlijke computerresources, gegevensverzameling en infrastructuur om dit te doen en vervolgens verfijnde modellen te hosten. Ondertussen omvat in-context leren het samenstellen van de juiste prompt met voorbeelden van het oplossen van het probleem, zoals Chain-of-Thought (CoT). Er zijn echter enkele problemen, zoals de beperkte omvang van de tekst die aan het model kan worden voorgelegd en het feit dat bij een complexe multi-pass-prompt de stappen elkaar kunnen hinderen en het model door iets kan worden afgeleid. dat mag op dit moment niet worden afgeleid. De auteurs stellen een alternatief pad voor genaamd LLM-programma's, wat kan worden beschouwd als de ontwikkeling van in-context leren.

LLM-programma's: de nieuwe weg naar het afstemmen van neurale modellen in complexe situaties
Aanbevolen: Prompt Engineering Ultieme Gids 2023

LLM is ingebouwd in het programma (in een conventioneel programmeertaal, bijvoorbeeld in Python). Deze externe code is verantwoordelijk voor het stap voor stap opslaan van de status en het onderhouden van het model. Het heeft een paar grote voordelen: programmeertalen zijn hierop aangepast, de omvang van de beschikbare context groeit en de stappen interfereren niet met elkaar. De sleutel tot het oplossen van een probleem via het LLM-programma is het vermogen om de oplossing voor een probleem op te splitsen in een reeks eenvoudigere stappen. Deze benadering verschilt van eerdere werken, waar het model externe hulpmiddelen gebruikte, zoals rekenmachines of code tolken om de staat te behouden. Deze benadering is goed omdat het mogelijk is om op deze manier een complexe en verspreide taak te beschrijven, waardoor het gemakkelijker wordt om de kwaliteit te testen, te debuggen en te evalueren.

Bovendien is er geen interferentie tussen de stappen, waardoor het gemakkelijker wordt om met LLM te werken. Vraag-antwoordsystemen zijn ook niet nieuw; ze bestonden al lang voordat LLM's. Hoe is de taak om vragen te beantwoorden nu opgelost?

Sites worden regelmatig bijgewerkt, dus a bevroren model is geen optie; het zal snel verouderd raken en zal geen vragen over nieuwe producten kunnen beantwoorden. Voortdurende herscholing van het model voor elke update is geen realistische optie: het is duur en tijdrovend. In plaats daarvan worden de pagina's van een website meestal geïndexeerd, in een soort database geplaatst en vaak gevectoriseerd. Op verzoek van een gebruiker worden relevante documenten opgehaald en als context naar LLM verzonden.

In een dergelijk paradigma wordt het probleem natuurlijk opgelost via het LLM-programma. Als bonus, het mogelijk wordt om complexere multi-pass-logica te implementeren die niet volledig in de context zou passen.

Getest op de StrategyQA-dataset met binaire classificatieproblemen, waarvan de oplossing een redenering in meerdere richtingen inhoudt. Zoals "Dringt zonlicht door tot op het diepste punt van de Zwarte Zee?". Om te antwoorden, moet u de maximale diepte (2 km) vinden en hoe diep licht het water binnendringt (1 km), en vervolgens een conclusie trekken. Laten we eens kijken naar een andere voorbeeldvraag: "Heeft Aristoteles een laptop gebruikt?" Deze vraag is niet zo eenvoudig en volgt niet expliciet de volgorde van redeneerstappen als "Leefde Aristoteles toen de laptop werd uitgevonden?" doet. De dataset richt zich op vragen waarbij een dergelijke volgorde impliciet is. Er zijn slechts 2,780 vragen in de dataset, waarvan er slechts 918 paragrafen hebben met bewijs die alle stappen van de redenering versterken. In het huidige werk beperkt het zich tot deze subset; anders zouden we erop moeten vertrouwen dat LLM enkele feiten leert tijdens de vooropleiding.

De OPT-175B LLM is standaard niet erg goed in het volgen van instructies; het hoefde geen instructies of conversatiegegevens te finetunen. Om het door bewijs ondersteunde vraag-antwoordprobleem op te lossen, is het onderverdeeld in een fase van gegevensfiltering en een fase van het zoeken in bomen.

In de filterfase, met een vraag, doorlopen ontwikkelaars alle paragrafen en selecteren ze de meest relevante. Vraag de LLM bijvoorbeeld met een enkele prompt om te antwoorden (ja/nee) of een bepaalde alinea relevant is voor de gestelde vraag. Getest op een 300-subset van StrategyQA, waarbij elke vraag werd gekoppeld aan een alinea, relevant of niet, 50/50. OPT-175B en sms-davinci-002 hebben geen a veel hogere kwaliteit dan een willekeurige basislijn: tot 56%. Hoe geavanceerder 11B Tk-Instrueren is met 61.6% niet veel beter.

Vanwege de slechte kwaliteit van deze benadering is een alternatief samengesteld dat rekening houdt met de gemiddelde negatieve log-likelihood (NLL) van de vraag in combinatie met de voorgaande alinea tekst en vervolgens de resultaten rangschikt. Geëvalueerd op een dataset waar voor elke vraag 100 paragrafen waren, en slechts één relevant was (dus willekeurig raden geeft 1%). We hebben top-1 nauwkeurigheid van 79% en top-5 van 93%. Voor deze berekening heb je meestal toegang tot het model zelf nodig, wat niet altijd in de API gebeurt.

Vervolgens komt de fase van het bouwen van outputketens. Dit wordt gedaan door een boom te doorzoeken waar de vraag de wortel is, en op elk niveau zijn er veel alinea's met mogelijk bewijsmateriaal dat als context wordt gebruikt om de volgende stap te genereren. Elk pad door de boom is een potentiële uitvoerketen. Het is onrealistisch om een ​​conclusie te trekken over alle mogelijke ketens, dus alle beschikbare ketens worden gerangschikt en de hoogst gerangschikte keten wordt uitgebreid. Dit is zo'n variatie op bundelzoeken. Het proces stopt wanneer een reactie wordt gegeven of het maximaal toegestane aantal stappen is verstreken.

De belangrijkste details zijn de twee rankingstrategieën die zijn getest voor de tree search-stap. De eerste strategie gaat uit van de gemiddelde NLL van de hele keten, terwijl de tweede strategie kijkt naar het gemiddelde verschil in NLL met en zonder alinea (P), met en zonder vraag (Q). Op de beschikbare 918 vragen van StrategyQA verbetert deze aanpak de antwoordkwaliteit aanzienlijk ten opzichte van de baseline met CoT (60%); beide zoekopties geven ongeveer 66% (de strategie met een iets hogere delta). Als gouden feiten worden ingediend, wordt de kwaliteit rond de 81%, wat de bovengrens is voor OPT. Darklang lijkt daar ergens naartoe te gaan, maar op een iets andere manier.

Het artikel is gebaseerd op het Telegram post.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Biswap publiceert nieuwe strategische routekaart, richt zich op uitbreiding van meerdere ketens en introductie van liquide staking
Markten Nieuwsverslag Technologie
Biswap publiceert nieuwe strategische routekaart, richt zich op uitbreiding van meerdere ketens en introductie van liquide staking
24 mei 2024
Web3 AI onthuld: Jimmy Zhao legt uit hoe BNB Chain's integratie van Blockchain en AI Redefines Vertrouwen, transparantie en decentralisatie
Interview Business Markten Software Technologie
Web3 AI onthuld: Jimmy Zhao legt uit hoe BNB Chain's integratie van Blockchain en AI Redefines Vertrouwen, transparantie en decentralisatie
24 mei 2024
Hyperliquid onthult HIP-1 Spot Token-implementatiefunctie op zijn mainnet en beveelt testen aan voor een soepele implementatie
Nieuwsverslag Technologie
Hyperliquid onthult HIP-1 Spot Token-implementatiefunctie op zijn mainnet en beveelt testen aan voor een soepele implementatie
24 mei 2024
De beste deals van deze week, grote investeringen in AI, IT, Web3, en Crypto (20-24.05)
Verteren Toplijsten Business Lifestyle Markten Software Technologie
De beste deals van deze week, grote investeringen in AI, IT, Web3, en Crypto (20-24.05)
24 mei 2024