AI-forskare har lärt stora språkmodeller att ljuga mindre
Ett samarbete mellan över 20 forskare från olika hörn av fältet har gett upphov till en växande domän – representationsteknik (RepE). Även om detta inte är den första utforskningen i sitt slag, presenterar författarna både beskrivande insikter och etablerar avgörande riktmärken.
Så, vad är representationsteknik egentligen? Det kretsar kring föreställningen att neurala nätverk har "dolda tillstånd", som, trots deras namn, inte är höljda i hemlighet. Dessa tillstånd är tillgängliga, modifierbara och observerbara (förutsatt att man har tillgång till modellens vikter). Till skillnad från parametrar är dessa nätverkets "reaktioner" på specifika indata, särskilt i fallet med LLM, textinmatningar. Dessa dolda representationer är som fönster in i modellens kognitiva funktion, en egenskap som är tydligt skild från den mänskliga hjärnan.
Dra paralleller med kognitionsvetenskap, författarna lyfter fram potentialen för analoga utforskningar. I sfären av neurala aktiveringar, en domän analog med hjärnneuroner, finns löftet om mening. Precis som vissa neuroner i den mänskliga hjärnan är kopplade till begrepp som Kanada eller ärlighet, kan dessa aktiveringar hysa insikter.
Den centrala idén här är att dechiffrera hur vi kan påverka dessa neurala aktiveringar för att styra modellen i önskade riktningar. Till exempel blir det rimligt att peka ut en vektor som representerar "ärlighet" och sedan, teoretiskt, genom att knuffa modellen i denna riktning, minska sannolikheten för att den producerar vilseledande utdata. Ett tidigare experiment, "Inferens-tidsintervention: Framkalla sanningsenliga svar från en språkmodell”, visade det praktiska i detta koncept.
I sitt nuvarande arbete fördjupar forskarna flera områden, inklusive moral, emotionalitet, ofarlighet och memorering. De föreslår en lösning i form av LoRRA (Low-Rank Representation Adaptation), en teknik som innebär att man tränar på en liten märkt dataset med cirka 100 exempel. Varje exempel är kommenterat, vilket indikerar attribut som falskhet (även om det finns ett alternativt tillvägagångssätt som använder en prompt).
Resultaten är övertygande. LLAMA-2-70B överträffar GPT-4 med en anmärkningsvärd marginal på TruthfulQA-riktmärket, och uppnådde nästan tio procent bättre noggrannhet (59 % jämfört med cirka 69 %). Dessutom har forskarna införlivat många exempel som visar upp modellens svarsförskjutningar i olika riktningar, vilket belyser dess mångsidighet och anpassningsförmåga.
Denna banbrytande strategi förkroppsligar en alternativ väg mot modellanpassning, samtidigt som den erbjuder ett nytt perspektiv på modelltolkning och kontroll. Det är en lovande gräns, och förväntan på dess fortsatta utveckling är påtaglig.
För en djupare utforskning med praktiska exempel kan du besöka deras dedikerade webbplats: AI-Transparency.org.
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.