AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen


Een gezamenlijke inspanning waarbij meer dan twintig onderzoekers uit verschillende hoeken van het veld betrokken zijn, heeft geleid tot een ontluikend domein: representatie techniek (RepE). Hoewel dit niet de eerste verkenning in zijn soort is, presenteren de auteurs zowel beschrijvende inzichten als cruciale benchmarks.

Wat is representatie-engineering precies? Het draait om het idee dat neurale netwerken 'verborgen toestanden' bezitten, die, ondanks hun naam, niet in geheimzinnigheid zijn gehuld. Deze toestanden zijn toegankelijk, aanpasbaar en waarneembaar (op voorwaarde dat men toegang heeft tot de gewichten van het model). In tegenstelling tot parameters zijn dit de “reacties” van het netwerk op specifieke input, vooral in het geval van LLM's, tekstuele invoer. Deze verborgen representaties zijn als vensters in de cognitieve werking van het model, een kenmerk dat duidelijk verschilt van het menselijk brein.
De auteurs trekken parallellen met de cognitieve wetenschap en benadrukken het potentieel voor analoge verkenningen. Op het gebied van neurale activeringen, een domein dat analoog is aan hersenneuronen, ligt de belofte van betekenis. Net zoals bepaalde neuronen in het menselijk brein gekoppeld zijn aan concepten als Canada of eerlijkheid, kunnen deze activeringen inzichten herbergen.
Het centrale idee hier is om te ontcijferen hoe we deze neurale activaties kunnen beïnvloeden om het model in de gewenste richtingen te sturen. Het wordt bijvoorbeeld plausibel om een vector aan te wijzen die ‘eerlijkheid’ vertegenwoordigt en vervolgens, theoretisch gezien, door het model in deze richting te duwen, de kans te verkleinen dat het bedrieglijke resultaten oplevert. Een eerder experiment, “Inferentietijdinterventie: waarheidsgetrouwe antwoorden uit een taalmodel ontlokken”, demonstreerde de bruikbaarheid van dit concept.
In hun huidige werk verdiepen de onderzoekers zich in verschillende domeinen, waaronder moraliteit, emotionaliteit, onschadelijkheid en memoriseren. Ze stellen een oplossing voor in de vorm van LoRRA (Low-Rank Representation Adaptation), een techniek waarbij wordt getraind op een kleine gelabelde dataset van ongeveer 100 voorbeelden. Elk voorbeeld is geannoteerd, waarbij attributen zoals falsehood worden aangegeven (hoewel er een alternatieve benadering bestaat waarbij gebruik wordt gemaakt van een prompt).
De resultaten zijn overtuigend. LLAMA-2-70B overtreft GPT-4 met een opmerkelijke marge ten opzichte van de TruthfulQA-benchmark, waardoor een bijna tien procent betere nauwkeurigheid werd bereikt (59% vergeleken met ongeveer 69%). Bovendien hebben de onderzoekers talloze voorbeelden opgenomen die de responsverschuivingen van het model in verschillende richtingen laten zien, wat licht werpt op de veelzijdigheid en het aanpassingsvermogen ervan.




Groen geeft uiteraard aan dat alles in orde is, en rood geeft aan dat de monitoring succesvol is geweest en een signaal afgeeft. Dit gebeurt op het niveau van elk individueel token (deel van een woord).

Deze baanbrekende aanpak belichaamt een alternatief pad naar modelafstemming en biedt tegelijkertijd een nieuw perspectief op modelinterpretatie en -controle. Het is een veelbelovende grens, en de verwachting voor de verdere evolutie ervan is voelbaar.
Voor een diepere verkenning met praktische voorbeelden kunt u hun speciale website bezoeken: AI-Transparency.org.
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelen

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.