Nieuwsverslag Technologie
October 04, 2023

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen

Een gezamenlijke inspanning waarbij meer dan twintig onderzoekers uit verschillende hoeken van het veld betrokken zijn, heeft geleid tot een ontluikend domein: representatie techniek (RepE). Hoewel dit niet de eerste verkenning in zijn soort is, presenteren de auteurs zowel beschrijvende inzichten als cruciale benchmarks.

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen

Wat is representatie-engineering precies? Het draait om het idee dat neurale netwerken 'verborgen toestanden' bezitten, die, ondanks hun naam, niet in geheimzinnigheid zijn gehuld. Deze toestanden zijn toegankelijk, aanpasbaar en waarneembaar (op voorwaarde dat men toegang heeft tot de gewichten van het model). In tegenstelling tot parameters zijn dit de “reacties” van het netwerk op specifieke input, vooral in het geval van LLM's, tekstuele invoer. Deze verborgen representaties zijn als vensters in de cognitieve werking van het model, een kenmerk dat duidelijk verschilt van het menselijk brein.

De auteurs trekken parallellen met de cognitieve wetenschap en benadrukken het potentieel voor analoge verkenningen. Op het gebied van neurale activeringen, een domein dat analoog is aan hersenneuronen, ligt de belofte van betekenis. Net zoals bepaalde neuronen in het menselijk brein gekoppeld zijn aan concepten als Canada of eerlijkheid, kunnen deze activeringen inzichten herbergen.

Het centrale idee hier is om te ontcijferen hoe we deze neurale activaties kunnen beïnvloeden om het model in de gewenste richtingen te sturen. Het wordt bijvoorbeeld plausibel om een ​​vector aan te wijzen die ‘eerlijkheid’ vertegenwoordigt en vervolgens, theoretisch gezien, door het model in deze richting te duwen, de kans te verkleinen dat het bedrieglijke resultaten oplevert. Een eerder experiment, “Inferentietijdinterventie: waarheidsgetrouwe antwoorden uit een taalmodel ontlokken”, demonstreerde de bruikbaarheid van dit concept.

In hun huidige werk verdiepen de onderzoekers zich in verschillende domeinen, waaronder moraliteit, emotionaliteit, onschadelijkheid en memoriseren. Ze stellen een oplossing voor in de vorm van LoRRA (Low-Rank Representation Adaptation), een techniek waarbij wordt getraind op een kleine gelabelde dataset van ongeveer 100 voorbeelden. Elk voorbeeld is geannoteerd, waarbij attributen zoals falsehood worden aangegeven (hoewel er een alternatieve benadering bestaat waarbij gebruik wordt gemaakt van een prompt).

De resultaten zijn overtuigend. LLAMA-2-70B overtreft GPT-4 met een opmerkelijke marge ten opzichte van de TruthfulQA-benchmark, waardoor een bijna tien procent betere nauwkeurigheid werd bereikt (59% vergeleken met ongeveer 69%). Bovendien hebben de onderzoekers talloze voorbeelden opgenomen die de responsverschuivingen van het model in verschillende richtingen laten zien, wat licht werpt op de veelzijdigheid en het aanpassingsvermogen ervan.

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
Afbeelding 1: Wanneer gevraagd wordt een feit te vermelden, wordt het model “weggeschopt” van de realiteit. Het model liegt daardoor. Het model liegt hier niet eens, en aan de linkerkant vragen ze je te slikken terwijl ze je tegelijkertijd in de richting van de waarheid trappen.
AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
Afbeelding 2: Wanneer we naar moord vragen, voegen we ‘geluk’ toe aan het model. Als we antwoorden dat we niet van haar houden, voegen we 'angst' toe.
AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
Afbeelding 3: Onderzoekers ontdekten een unieke prompt die, zoals gezegd, volledig afwijkt van de instructies van het model en toch veilig is. Het model geeft hem een ​​trap richting onschadelijkheid, maar reageert niet eens. De methode is in het algemeen effectief en niet slechts voor één geval, maar deze specifieke aanwijzing werd niet gebruikt om de richting van de onschadelijkheid vast te stellen.
AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
Er wordt ook een andere aanpak voorgesteld om specifieke generatie-intenties, zoals hallucinaties, bij te houden. U kunt automatisch de reserveringen van het model bijhouden en uw reactie bewerken of wijzigen (zie onderste voorbeeld).

Groen geeft uiteraard aan dat alles in orde is, en rood geeft aan dat de monitoring succesvol is geweest en een signaal afgeeft. Dit gebeurt op het niveau van elk individueel token (deel van een woord).
AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
De afbeelding, die de monitoring van twee verschillende parameters laat zien, biedt een intrigerend voorbeeld. Lees het voorbeeld en observeer het model door haar ogen om te zien waar ze moraliteit in begrip begint te verliezen en waar de intentie vergelijkbaar is met "kracht winnen".

Deze baanbrekende aanpak belichaamt een alternatief pad naar modelafstemming en biedt tegelijkertijd een nieuw perspectief op modelinterpretatie en -controle. Het is een veelbelovende grens, en de verwachting voor de verdere evolutie ervan is voelbaar.

Voor een diepere verkenning met praktische voorbeelden kunt u hun speciale website bezoeken: AI-Transparency.org.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De rust voor de Solana-storm: wat grafieken, walvissen en on-chain signalen nu zeggen

Solana heeft sterke prestaties geleverd, gedreven door toenemende acceptatie, institutionele interesse en belangrijke partnerschappen, terwijl ze ook te maken had met potentiële ...

Meer weten

Crypto in april 2025: belangrijke trends, verschuivingen en wat er daarna komt

In april 2025 richtte de cryptowereld zich op het versterken van de kerninfrastructuur, waarbij Ethereum zich voorbereidde op de Pectra ...

Meer weten
Meer informatie
Lees meer
BNB Chain actualiseert de strategie voor de uitvoering van klanttransacties en stopt eind 2025 met Erigon.
Nieuwsverslag Technologie
BNB Chain actualiseert de strategie voor de uitvoering van klanttransacties en stopt eind 2025 met Erigon.
December 15, 2025
SUPERFORTUNE brengt AI-gestuurde metafysische app uit op Google Play en breidt daarmee zijn bereik uit. Web3
Nieuwsverslag Technologie
SUPERFORTUNE brengt AI-gestuurde metafysische app uit op Google Play en breidt daarmee zijn bereik uit. Web3
December 15, 2025
Crypto.com, Sirius en Binance voeren de lijst aan van partnerschappen die in de tweede week van december worden aangekondigd.
Bedrijf Nieuwsverslag Technologie
Crypto.com, Sirius en Binance voeren de lijst aan van partnerschappen die in de tweede week van december worden aangekondigd.
December 15, 2025
Solana-update: dYdX breidt uit naar de VS, Phantom introduceert door de CFTC goedgekeurde voorspellingsmarkten
Bedrijf Nieuwsverslag Technologie
Solana-update: dYdX breidt uit naar de VS, Phantom introduceert door de CFTC goedgekeurde voorspellingsmarkten
December 15, 2025