Nieuwsverslag Technologie
04 oktober 2023

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen

Een gezamenlijke inspanning waarbij meer dan twintig onderzoekers uit verschillende hoeken van het veld betrokken zijn, heeft geleid tot een ontluikend domein: representatie techniek (RepE). Hoewel dit niet de eerste verkenning in zijn soort is, presenteren de auteurs zowel beschrijvende inzichten als cruciale benchmarks.

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen

Wat is representatie-engineering precies? Het draait om het idee dat neurale netwerken 'verborgen toestanden' bezitten, die, ondanks hun naam, niet in geheimzinnigheid zijn gehuld. Deze toestanden zijn toegankelijk, aanpasbaar en waarneembaar (op voorwaarde dat men toegang heeft tot de gewichten van het model). In tegenstelling tot parameters zijn dit de “reacties” van het netwerk op specifieke input, vooral in het geval van LLM's, tekstuele invoer. Deze verborgen representaties zijn als vensters in de cognitieve werking van het model, een kenmerk dat duidelijk verschilt van het menselijk brein.

De auteurs trekken parallellen met de cognitieve wetenschap en benadrukken het potentieel voor analoge verkenningen. Op het gebied van neurale activeringen, een domein dat analoog is aan hersenneuronen, ligt de belofte van betekenis. Net zoals bepaalde neuronen in het menselijk brein gekoppeld zijn aan concepten als Canada of eerlijkheid, kunnen deze activeringen inzichten herbergen.

Het centrale idee hier is om te ontcijferen hoe we deze neurale activaties kunnen beïnvloeden om het model in de gewenste richtingen te sturen. Het wordt bijvoorbeeld plausibel om een ​​vector aan te wijzen die ‘eerlijkheid’ vertegenwoordigt en vervolgens, theoretisch gezien, door het model in deze richting te duwen, de kans te verkleinen dat het bedrieglijke resultaten oplevert. Een eerder experiment, “Inferentietijdinterventie: waarheidsgetrouwe antwoorden uit een taalmodel ontlokken”, demonstreerde de bruikbaarheid van dit concept.

In hun huidige werk verdiepen de onderzoekers zich in verschillende domeinen, waaronder moraliteit, emotionaliteit, onschadelijkheid en memoriseren. Ze stellen een oplossing voor in de vorm van LoRRA (Low-Rank Representation Adaptation), een techniek waarbij wordt getraind op een kleine gelabelde dataset van ongeveer 100 voorbeelden. Elk voorbeeld is geannoteerd, waarbij attributen zoals falsehood worden aangegeven (hoewel er een alternatieve benadering bestaat waarbij gebruik wordt gemaakt van een prompt).

De resultaten zijn overtuigend. LLAMA-2-70B overtreft GPT-4 met een opmerkelijke marge ten opzichte van de TruthfulQA-benchmark, waardoor een bijna tien procent betere nauwkeurigheid werd bereikt (59% vergeleken met ongeveer 69%). Bovendien hebben de onderzoekers talloze voorbeelden opgenomen die de responsverschuivingen van het model in verschillende richtingen laten zien, wat licht werpt op de veelzijdigheid en het aanpassingsvermogen ervan.

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
Afbeelding 1: Wanneer gevraagd wordt een feit te vermelden, wordt het model “weggeschopt” van de realiteit. Het model liegt daardoor. Het model liegt hier niet eens, en aan de linkerkant vragen ze je te slikken terwijl ze je tegelijkertijd in de richting van de waarheid trappen.
AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
Afbeelding 2: Wanneer we naar moord vragen, voegen we ‘geluk’ toe aan het model. Als we antwoorden dat we niet van haar houden, voegen we 'angst' toe.
AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
Afbeelding 3: Onderzoekers ontdekten een unieke prompt die, zoals gezegd, volledig afwijkt van de instructies van het model en toch veilig is. Het model geeft hem een ​​trap richting onschadelijkheid, maar reageert niet eens. De methode is in het algemeen effectief en niet slechts voor één geval, maar deze specifieke aanwijzing werd niet gebruikt om de richting van de onschadelijkheid vast te stellen.
AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
Er wordt ook een andere aanpak voorgesteld om specifieke generatie-intenties, zoals hallucinaties, bij te houden. U kunt automatisch de reserveringen van het model bijhouden en uw reactie bewerken of wijzigen (zie onderste voorbeeld).

Groen geeft uiteraard aan dat alles in orde is, en rood geeft aan dat de monitoring succesvol is geweest en een signaal afgeeft. Dit gebeurt op het niveau van elk individueel token (deel van een woord).
AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen
De afbeelding, die de monitoring van twee verschillende parameters laat zien, biedt een intrigerend voorbeeld. Lees het voorbeeld en observeer het model door haar ogen om te zien waar ze moraliteit in begrip begint te verliezen en waar de intentie vergelijkbaar is met "kracht winnen".

Deze baanbrekende aanpak belichaamt een alternatief pad naar modelafstemming en biedt tegelijkertijd een nieuw perspectief op modelinterpretatie en -controle. Het is een veelbelovende grens, en de verwachting voor de verdere evolutie ervan is voelbaar.

Voor een diepere verkenning met praktische voorbeelden kunt u hun speciale website bezoeken: AI-Transparency.org.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Hot Stories
Schrijf je in op onze nieuwsbrief.
Actueel

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Lees Verder
Lees verder
Gate.io verbetert contracthandel met geavanceerde AI-tools
Markten Nieuwsverslag Technologie
Gate.io verbetert contracthandel met geavanceerde AI-tools
14 februari 2025
Game Changers van Web3 Kom bijeen op de Hack Seasons Conference om de digitale toekomst te ontsluiten
Hack-seizoenen Advies Zakelijk Lifestyle Markten Technologie
Game Changers van Web3 Kom bijeen op de Hack Seasons Conference om de digitale toekomst te ontsluiten
14 februari 2025
Ethereum Foundation kondigt Pectra-activeringsschema aan voor Holesky en Sepolia, brengt testnet-clientsoftware uit
Nieuwsverslag Technologie
Ethereum Foundation kondigt Pectra-activeringsschema aan voor Holesky en Sepolia, brengt testnet-clientsoftware uit   
14 februari 2025
Vitalik Buterin: het schalen van de gaslimieten van laag 1 met 10x biedt aanzienlijke waarde
Nieuwsverslag Technologie
Vitalik Buterin: het schalen van de gaslimieten van laag 1 met 10x biedt aanzienlijke waarde
14 februari 2025