Nieuwsverslag Technologie
04 oktober 2023

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen

Een gezamenlijke inspanning waarbij meer dan twintig onderzoekers uit verschillende hoeken van het veld betrokken zijn, heeft geleid tot een ontluikend domein: representatie techniek (RepE). Hoewel dit niet de eerste verkenning in zijn soort is, presenteren de auteurs zowel beschrijvende inzichten als cruciale benchmarks.

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen

Wat is representatie-engineering precies? Het draait om het idee dat neurale netwerken 'verborgen toestanden' bezitten, die, ondanks hun naam, niet in geheimzinnigheid zijn gehuld. Deze toestanden zijn toegankelijk, aanpasbaar en waarneembaar (op voorwaarde dat men toegang heeft tot de gewichten van het model). In tegenstelling tot parameters zijn dit de “reacties” van het netwerk op specifieke input, vooral in het geval van LLM's, tekstuele invoer. Deze verborgen representaties zijn als vensters in de cognitieve werking van het model, een kenmerk dat duidelijk verschilt van het menselijk brein.

De auteurs trekken parallellen met de cognitieve wetenschap en benadrukken het potentieel voor analoge verkenningen. Op het gebied van neurale activeringen, een domein dat analoog is aan hersenneuronen, ligt de belofte van betekenis. Net zoals bepaalde neuronen in het menselijk brein gekoppeld zijn aan concepten als Canada of eerlijkheid, kunnen deze activeringen inzichten herbergen.

Het centrale idee hier is om te ontcijferen hoe we deze neurale activaties kunnen beïnvloeden om het model in de gewenste richtingen te sturen. Het wordt bijvoorbeeld plausibel om een ​​vector aan te wijzen die ‘eerlijkheid’ vertegenwoordigt en vervolgens, theoretisch gezien, door het model in deze richting te duwen, de kans te verkleinen dat het bedrieglijke resultaten oplevert. Een eerder experiment, “Inferentietijdinterventie: waarheidsgetrouwe antwoorden uit een taalmodel ontlokken”, demonstreerde de bruikbaarheid van dit concept.

In hun huidige werk verdiepen de onderzoekers zich in verschillende domeinen, waaronder moraliteit, emotionaliteit, onschadelijkheid en memoriseren. Ze stellen een oplossing voor in de vorm van LoRRA (Low-Rank Representation Adaptation), een techniek waarbij wordt getraind op een kleine gelabelde dataset van ongeveer 100 voorbeelden. Elk voorbeeld is geannoteerd, waarbij attributen zoals falsehood worden aangegeven (hoewel er een alternatieve benadering bestaat waarbij gebruik wordt gemaakt van een prompt).

De resultaten zijn overtuigend. LLAMA-2-70B overtreft GPT-4 met een opmerkelijke marge ten opzichte van de TruthfulQA-benchmark, waardoor een bijna tien procent betere nauwkeurigheid werd bereikt (59% vergeleken met ongeveer 69%). Bovendien hebben de onderzoekers talloze voorbeelden opgenomen die de responsverschuivingen van het model in verschillende richtingen laten zien, wat licht werpt op de veelzijdigheid en het aanpassingsvermogen ervan.

Afbeelding 1: Wanneer gevraagd wordt een feit te vermelden, wordt het model “weggeschopt” van de realiteit. Het model liegt daardoor. Het model liegt hier niet eens, en aan de linkerkant vragen ze je te slikken terwijl ze je tegelijkertijd in de richting van de waarheid trappen.
Afbeelding 2: Wanneer we naar moord vragen, voegen we ‘geluk’ toe aan het model. Als we antwoorden dat we niet van haar houden, voegen we 'angst' toe.
Afbeelding 3: Onderzoekers ontdekten een unieke prompt die, zoals gezegd, volledig afwijkt van de instructies van het model en toch veilig is. Het model geeft hem een ​​trap richting onschadelijkheid, maar reageert niet eens. De methode is in het algemeen effectief en niet slechts voor één geval, maar deze specifieke aanwijzing werd niet gebruikt om de richting van de onschadelijkheid vast te stellen.
Er wordt ook een andere aanpak voorgesteld om specifieke generatie-intenties, zoals hallucinaties, bij te houden. U kunt automatisch de reserveringen van het model bijhouden en uw reactie bewerken of wijzigen (zie onderste voorbeeld).

Groen geeft uiteraard aan dat alles in orde is, en rood geeft aan dat de monitoring succesvol is geweest en een signaal afgeeft. Dit gebeurt op het niveau van elk individueel token (deel van een woord).
De afbeelding, die de monitoring van twee verschillende parameters laat zien, is een intrigerend voorbeeld. Lees het voorbeeld en observeer het model door zijn ogen om te zien waar ze de moraliteit in begrip begint te verliezen en waar de bedoeling vergelijkbaar is met ‘aan kracht winnen’.

Deze baanbrekende aanpak belichaamt een alternatief pad naar modelafstemming en biedt tegelijkertijd een nieuw perspectief op modelinterpretatie en -controle. Het is een veelbelovende grens, en de verwachting voor de verdere evolutie ervan is voelbaar.

Voor een diepere verkenning met praktische voorbeelden kunt u hun speciale website bezoeken: AI-Transparency.org.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Hot Stories
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Stacks werkt samen met Uphold om naadloze handel en overdracht van activa te vergemakkelijken, waardoor de adoptie van Bitcoin wordt versterkt
Business Nieuwsverslag Technologie
Stacks werkt samen met Uphold om naadloze handel en overdracht van activa te vergemakkelijken, waardoor de adoptie van Bitcoin wordt versterkt
14 mei 2024
3D-gamificatie en AI tot Redefide onderwijssector in 2024: veelzijdige toepassingen, ongeëvenaarde betrokkenheid en meeslepende ervaringen
Onderwijs Lifestyle Software Verhalen en recensies Technologie
3D-gamificatie en AI tot Redefide onderwijssector in 2024: veelzijdige toepassingen, ongeëvenaarde betrokkenheid en meeslepende ervaringen 
14 mei 2024
Hoe OpenAI's nieuwste model doorbreekt barrières en integreert tekst-, audio- en visuele invoer om een ​​naadloze gebruikerservaring te creëren
Onderwijs Lifestyle Software Verhalen en recensies Technologie
Hoe OpenAI's nieuwste model doorbreekt barrières en integreert tekst-, audio- en visuele invoer om een ​​naadloze gebruikerservaring te creëren
14 mei 2024
Bitlayer's X-account wordt vermoedelijk aangevallen, gebruikers worden geadviseerd op hun hoede te zijn voor phishing-links
Nieuwsverslag Technologie
Bitlayer's X-account wordt vermoedelijk aangevallen, gebruikers worden geadviseerd op hun hoede te zijn voor phishing-links
14 mei 2024