Nieuwsverslag Technologie
04 oktober 2023

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen

Een gezamenlijke inspanning waarbij meer dan twintig onderzoekers uit verschillende hoeken van het veld betrokken zijn, heeft geleid tot een ontluikend domein: representatie techniek (RepE). Hoewel dit niet de eerste verkenning in zijn soort is, presenteren de auteurs zowel beschrijvende inzichten als cruciale benchmarks.

AI-onderzoekers hebben grote taalmodellen geleerd minder te liegen

Wat is representatie-engineering precies? Het draait om het idee dat neurale netwerken 'verborgen toestanden' bezitten, die, ondanks hun naam, niet in geheimzinnigheid zijn gehuld. Deze toestanden zijn toegankelijk, aanpasbaar en waarneembaar (op voorwaarde dat men toegang heeft tot de gewichten van het model). In tegenstelling tot parameters zijn dit de “reacties” van het netwerk op specifieke input, vooral in het geval van LLM's, tekstuele invoer. Deze verborgen representaties zijn als vensters in de cognitieve werking van het model, een kenmerk dat duidelijk verschilt van het menselijk brein.

De auteurs trekken parallellen met de cognitieve wetenschap en benadrukken het potentieel voor analoge verkenningen. Op het gebied van neurale activeringen, een domein dat analoog is aan hersenneuronen, ligt de belofte van betekenis. Net zoals bepaalde neuronen in het menselijk brein gekoppeld zijn aan concepten als Canada of eerlijkheid, kunnen deze activeringen inzichten herbergen.

Het centrale idee hier is om te ontcijferen hoe we deze neurale activaties kunnen beïnvloeden om het model in de gewenste richtingen te sturen. Het wordt bijvoorbeeld plausibel om een ​​vector aan te wijzen die ‘eerlijkheid’ vertegenwoordigt en vervolgens, theoretisch gezien, door het model in deze richting te duwen, de kans te verkleinen dat het bedrieglijke resultaten oplevert. Een eerder experiment, “Inferentietijdinterventie: waarheidsgetrouwe antwoorden uit een taalmodel ontlokken”, demonstreerde de bruikbaarheid van dit concept.

In hun huidige werk verdiepen de onderzoekers zich in verschillende domeinen, waaronder moraliteit, emotionaliteit, onschadelijkheid en memoriseren. Ze stellen een oplossing voor in de vorm van LoRRA (Low-Rank Representation Adaptation), een techniek waarbij wordt getraind op een kleine gelabelde dataset van ongeveer 100 voorbeelden. Elk voorbeeld is geannoteerd, waarbij attributen zoals falsehood worden aangegeven (hoewel er een alternatieve benadering bestaat waarbij gebruik wordt gemaakt van een prompt).

De resultaten zijn overtuigend. LLAMA-2-70B overtreft GPT-4 met een opmerkelijke marge ten opzichte van de TruthfulQA-benchmark, waardoor een bijna tien procent betere nauwkeurigheid werd bereikt (59% vergeleken met ongeveer 69%). Bovendien hebben de onderzoekers talloze voorbeelden opgenomen die de responsverschuivingen van het model in verschillende richtingen laten zien, wat licht werpt op de veelzijdigheid en het aanpassingsvermogen ervan.

Afbeelding 1: Wanneer gevraagd wordt een feit te vermelden, wordt het model “weggeschopt” van de realiteit. Het model liegt daardoor. Het model liegt hier niet eens, en aan de linkerkant vragen ze je te slikken terwijl ze je tegelijkertijd in de richting van de waarheid trappen.
Afbeelding 2: Wanneer we naar moord vragen, voegen we ‘geluk’ toe aan het model. Als we antwoorden dat we niet van haar houden, voegen we 'angst' toe.
Afbeelding 3: Onderzoekers ontdekten een unieke prompt die, zoals gezegd, volledig afwijkt van de instructies van het model en toch veilig is. Het model geeft hem een ​​trap richting onschadelijkheid, maar reageert niet eens. De methode is in het algemeen effectief en niet slechts voor één geval, maar deze specifieke aanwijzing werd niet gebruikt om de richting van de onschadelijkheid vast te stellen.
Er wordt ook een andere aanpak voorgesteld om specifieke generatie-intenties, zoals hallucinaties, bij te houden. U kunt automatisch de reserveringen van het model bijhouden en uw reactie bewerken of wijzigen (zie onderste voorbeeld).

Groen geeft uiteraard aan dat alles in orde is, en rood geeft aan dat de monitoring succesvol is geweest en een signaal afgeeft. Dit gebeurt op het niveau van elk individueel token (deel van een woord).
De afbeelding, die de monitoring van twee verschillende parameters laat zien, is een intrigerend voorbeeld. Lees het voorbeeld en observeer het model door zijn ogen om te zien waar ze de moraliteit in begrip begint te verliezen en waar de bedoeling vergelijkbaar is met ‘aan kracht winnen’.

Deze baanbrekende aanpak belichaamt een alternatief pad naar modelafstemming en biedt tegelijkertijd een nieuw perspectief op modelinterpretatie en -controle. Het is een veelbelovende grens, en de verwachting voor de verdere evolutie ervan is voelbaar.

Voor een diepere verkenning met praktische voorbeelden kunt u hun speciale website bezoeken: AI-Transparency.org.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Biswap publiceert nieuwe strategische routekaart, richt zich op uitbreiding van meerdere ketens en introductie van liquide staking
Markten Nieuwsverslag Technologie
Biswap publiceert nieuwe strategische routekaart, richt zich op uitbreiding van meerdere ketens en introductie van liquide staking
24 mei 2024
Web3 AI onthuld: Jimmy Zhao legt uit hoe BNB Chain's integratie van Blockchain en AI Redefines Vertrouwen, transparantie en decentralisatie
Interview Business Markten Software Technologie
Web3 AI onthuld: Jimmy Zhao legt uit hoe BNB Chain's integratie van Blockchain en AI Redefines Vertrouwen, transparantie en decentralisatie
24 mei 2024
Hyperliquid onthult HIP-1 Spot Token-implementatiefunctie op zijn mainnet en beveelt testen aan voor een soepele implementatie
Nieuwsverslag Technologie
Hyperliquid onthult HIP-1 Spot Token-implementatiefunctie op zijn mainnet en beveelt testen aan voor een soepele implementatie
24 mei 2024
De beste deals van deze week, grote investeringen in AI, IT, Web3, en Crypto (20-24.05)
Verteren Toplijsten Business Lifestyle Markten Software Technologie
De beste deals van deze week, grote investeringen in AI, IT, Web3, en Crypto (20-24.05)
24 mei 2024