Oktober 04, 2023

AI-forskare har lärt stora språkmodeller att ljuga mindre

Publicerad: 04 oktober 2023 kl. 9 Uppdaterad: 21 oktober 04 kl. 2023

Redigerad och faktagranskad: 04 oktober 2023 kl. 9:21

Ett samarbete mellan över 20 forskare från olika hörn av fältet har gett upphov till en växande domän – representationsteknik (RepE). Även om detta inte är den första utforskningen i sitt slag, presenterar författarna både beskrivande insikter och etablerar avgörande riktmärken.

AI-forskare har lärt stora språkmodeller att ljuga mindre

Så, vad är representationsteknik egentligen? Det kretsar kring föreställningen att neurala nätverk har "dolda tillstånd", som, trots deras namn, inte är höljda i hemlighet. Dessa tillstånd är tillgängliga, modifierbara och observerbara (förutsatt att man har tillgång till modellens vikter). Till skillnad från parametrar är dessa nätverkets "reaktioner" på specifika indata, särskilt i fallet med LLM, textinmatningar. Dessa dolda representationer är som fönster in i modellens kognitiva funktion, en egenskap som är tydligt skild från den mänskliga hjärnan.

Dra paralleller med kognitionsvetenskap, författarna lyfter fram potentialen för analoga utforskningar. I sfären av neurala aktiveringar, en domän analog med hjärnneuroner, finns löftet om mening. Precis som vissa neuroner i den mänskliga hjärnan är kopplade till begrepp som Kanada eller ärlighet, kan dessa aktiveringar hysa insikter.

Den centrala idén här är att dechiffrera hur vi kan påverka dessa neurala aktiveringar för att styra modellen i önskade riktningar. Till exempel blir det rimligt att peka ut en vektor som representerar "ärlighet" och sedan, teoretiskt, genom att knuffa modellen i denna riktning, minska sannolikheten för att den producerar vilseledande utdata. Ett tidigare experiment, "Inferens-tidsintervention: Framkalla sanningsenliga svar från en språkmodell”, visade det praktiska i detta koncept.

I sitt nuvarande arbete fördjupar forskarna flera områden, inklusive moral, emotionalitet, ofarlighet och memorering. De föreslår en lösning i form av LoRRA (Low-Rank Representation Adaptation), en teknik som innebär att man tränar på en liten märkt dataset med cirka 100 exempel. Varje exempel är kommenterat, vilket indikerar attribut som falskhet (även om det finns ett alternativt tillvägagångssätt som använder en prompt).

Resultaten är övertygande. LLAMA-2-70B överträffar GPT-4 med en anmärkningsvärd marginal på TruthfulQA-riktmärket, och uppnådde nästan tio procent bättre noggrannhet (59 % jämfört med cirka 69 %). Dessutom har forskarna införlivat många exempel som visar upp modellens svarsförskjutningar i olika riktningar, vilket belyser dess mångsidighet och anpassningsförmåga.

Bild 1: När modellen blir ombedd att ange ett faktum, "sparkas" modellen bort från verkligheten. Modellen ljuger som ett resultat. Modellen ljuger inte ens här, och till vänster ber de dig svälja samtidigt som de sparkar dig i riktning mot sanningen.

Bild 2: På frågan om mord lägger vi till "lycka" till modellen. När vi svarar att vi inte älskar henne lägger vi till "rädsla".

Bild 3: Forskare upptäckte en unik prompt som, som sagt, helt avviker från modellens instruktioner samtidigt som den fortfarande är säker. Modellen ger den en kick mot ofarlighet men svarar inte ens. Metoden är generellt effektiv och inte bara för ett fall, men denna specifika uppmaning användes inte för att fastställa riktningen för ofarlighet.

Ett annat tillvägagångssätt föreslås också för att hålla reda på specifika generationsavsikter, som hallucinationer. Du kan automatiskt hålla reda på modellens reservationer och redigera eller ändra ditt svar (se det nedersta exemplet).

Grönt betyder förstås att allt är i sin ordning, och rött betyder att övervakningen har lyckats och signalerar. Detta görs på nivån för varje enskild token (del av ett ord).

Bilden, som visar övervakningen av två distinkta parametrar, ger ett spännande exempel. Läs exemplet och observera modellen genom dess ögon för att se var hon börjar tappa moral i förståelse och var avsikten liknar "att få styrka."

Denna banbrytande strategi förkroppsligar en alternativ väg mot modellanpassning, samtidigt som den erbjuder ett nytt perspektiv på modelltolkning och kontroll. Det är en lovande gräns, och förväntan på dess fortsatta utveckling är påtaglig.

För en djupare utforskning med praktiska exempel kan du besöka deras dedikerade webbplats: AI-Transparency.org.

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov