AI-forskere har lært store sprogmodeller at lyve mindre
En samarbejdsindsats, der involverer over 20 forskere fra forskellige hjørner af feltet, har født et spirende domæne – repræsentationsteknik (RepE). Selvom dette ikke er den første udforskning af sin art, præsenterer forfatterne både beskrivende indsigter og etablerer afgørende benchmarks.
Så hvad er repræsentationsteknik egentlig? Det drejer sig om forestillingen om, at neurale netværk har "skjulte tilstande", som på trods af deres navn ikke er indhyllet i hemmeligholdelse. Disse tilstande er tilgængelige, modificerbare og observerbare (forudsat at man har adgang til modellens vægte). I modsætning til parametre er disse netværkets "reaktioner" på specifikke input, især i tilfælde af LLM'er, tekstinput. Disse skjulte repræsentationer er som vinduer ind i modellens kognitive funktion, en funktion, der er tydeligt forskellig fra den menneskelige hjerne.
Forfatterne trækker paralleller med kognitiv videnskab og fremhæver potentialet for analoge udforskninger. I området for neurale aktiveringer, et domæne analogt med hjerneneuroner, ligger løftet om mening. Ligesom visse neuroner i den menneskelige hjerne er forbundet med begreber som Canada eller ærlighed, kan disse aktiveringer rumme indsigt.
Den centrale idé her er at dechifrere, hvordan vi kan påvirke disse neurale aktiveringer til at styre modellen i ønskede retninger. For eksempel bliver det plausibelt at udpege en vektor, der repræsenterer "ærlighed", og derefter teoretisk, ved at skubbe modellen i denne retning, reducere sandsynligheden for, at den producerer vildledende output. Et tidligere eksperiment, "Inferens-tidsintervention: Fremkaldelse af sandfærdige svar fra en sprogmodel, demonstrerede det praktiske ved dette koncept.
I deres nuværende arbejde dykker forskerne ind i flere domæner, herunder moral, følelsesmæssighed, harmløshed og udenadslære. De foreslår en løsning i form af LoRRA (Low-Rank Representation Adaptation), en teknik, der involverer træning på et lille mærket datasæt med cirka 100 eksempler. Hvert eksempel er kommenteret, hvilket indikerer attributter som falskhed (selvom der findes en alternativ tilgang, der anvender en prompt).
Resultaterne er overbevisende. LLAMA-2-70B overgår GPT-4 med en bemærkelsesværdig margin i forhold til TruthfulQA benchmark og opnåede næsten ti procent bedre nøjagtighed (59 % sammenlignet med ca. 69 %). Derudover har forskerne indarbejdet adskillige eksempler, der viser modellens responsskift i forskellige retninger, hvilket kaster lys over dens alsidighed og tilpasningsevne.
Denne banebrydende tilgang legemliggør en alternativ vej mod modeltilpasning, samtidig med at den tilbyder et nyt perspektiv på modelfortolkning og kontrol. Det er en lovende grænse, og forventningen til dens fortsatte udvikling er til at tage og føle på.
For en dybere udforskning med praktiske eksempler kan du besøge deres dedikerede hjemmeside: AI-Transparency.org.
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.