Nyheds rapport Teknologier
Oktober 04, 2023

AI-forskere har lært store sprogmodeller at lyve mindre

En samarbejdsindsats, der involverer over 20 forskere fra forskellige hjørner af feltet, har født et spirende domæne – repræsentationsteknik (RepE). Selvom dette ikke er den første udforskning af sin art, præsenterer forfatterne både beskrivende indsigter og etablerer afgørende benchmarks.

AI-forskere har lært store sprogmodeller at lyve mindre

Så hvad er repræsentationsteknik egentlig? Det drejer sig om forestillingen om, at neurale netværk har "skjulte tilstande", som på trods af deres navn ikke er indhyllet i hemmeligholdelse. Disse tilstande er tilgængelige, modificerbare og observerbare (forudsat at man har adgang til modellens vægte). I modsætning til parametre er disse netværkets "reaktioner" på specifikke input, især i tilfælde af LLM'er, tekstinput. Disse skjulte repræsentationer er som vinduer ind i modellens kognitive funktion, en funktion, der er tydeligt forskellig fra den menneskelige hjerne.

Forfatterne trækker paralleller med kognitiv videnskab og fremhæver potentialet for analoge udforskninger. I området for neurale aktiveringer, et domæne analogt med hjerneneuroner, ligger løftet om mening. Ligesom visse neuroner i den menneskelige hjerne er forbundet med begreber som Canada eller ærlighed, kan disse aktiveringer rumme indsigt.

Den centrale idé her er at dechifrere, hvordan vi kan påvirke disse neurale aktiveringer til at styre modellen i ønskede retninger. For eksempel bliver det plausibelt at udpege en vektor, der repræsenterer "ærlighed", og derefter teoretisk, ved at skubbe modellen i denne retning, reducere sandsynligheden for, at den producerer vildledende output. Et tidligere eksperiment, "Inferens-tidsintervention: Fremkaldelse af sandfærdige svar fra en sprogmodel, demonstrerede det praktiske ved dette koncept.

I deres nuværende arbejde dykker forskerne ind i flere domæner, herunder moral, følelsesmæssighed, harmløshed og udenadslære. De foreslår en løsning i form af LoRRA (Low-Rank Representation Adaptation), en teknik, der involverer træning på et lille mærket datasæt med cirka 100 eksempler. Hvert eksempel er kommenteret, hvilket indikerer attributter som falskhed (selvom der findes en alternativ tilgang, der anvender en prompt).

Resultaterne er overbevisende. LLAMA-2-70B overgår GPT-4 med en bemærkelsesværdig margin i forhold til TruthfulQA benchmark og opnåede næsten ti procent bedre nøjagtighed (59 % sammenlignet med ca. 69 %). Derudover har forskerne indarbejdet adskillige eksempler, der viser modellens responsskift i forskellige retninger, hvilket kaster lys over dens alsidighed og tilpasningsevne.

Billede 1: Når du bliver bedt om at angive et faktum, bliver modellen "sparket" væk fra virkeligheden. Modellen lyver som følge heraf. Modellen lyver ikke engang her, og til venstre beder de dig om at sluge, mens de samtidig sparker dig i retning af sandheden.
Billede 2: Når vi bliver spurgt om mord, tilføjer vi "lykke" til modellen. Når vi svarer, at vi ikke elsker hende, tilføjer vi "frygt".
Billede 3: Forskere opdagede en unik prompt, der som sagt fuldstændig afviger fra modellens instruktioner, mens den stadig er sikker. Modellen giver den et kick mod harmløshed, men reagerer ikke engang. Metoden er effektiv generelt og ikke kun for ét tilfælde, men denne specifikke prompt blev ikke brugt til at fastslå retningen af ​​uskadelighed.
En anden tilgang er også foreslået til at holde styr på specifikke generationsintentioner, såsom hallucinationer. Du kan automatisk holde styr på modellens reservationer og redigere eller ændre dit svar (se nederste eksempel).

Grøn angiver selvfølgelig, at alt er i orden, og rød angiver, at overvågningen har været vellykket og signalerer. Dette gøres på niveauet for hver enkelt token (en del af et ord).
Billedet, der viser overvågningen af ​​to forskellige parametre, er et spændende eksempel. Læs eksemplet og observer modellen gennem dens øjne for at se, hvor hun begynder at miste moral i forståelsen, og hvor hensigten svarer til "at få styrke."

Denne banebrydende tilgang legemliggør en alternativ vej mod modeltilpasning, samtidig med at den tilbyder et nyt perspektiv på modelfortolkning og kontrol. Det er en lovende grænse, og forventningen til dens fortsatte udvikling er til at tage og føle på.

For en dybere udforskning med praktiske eksempler kan du besøge deres dedikerede hjemmeside: AI-Transparency.org.

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Hot Stories
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

From Ripple to The Big Green DAO: How Cryptocurrency Projects Contribute to Charity

Lad os undersøge initiativer, der udnytter potentialet i digitale valutaer til velgørende formål.

Vide mere

AlphaFold 3, Med-Gemini og andre: The Way AI Transforms Healthcare in 2024

AI manifesterer sig på forskellige måder i sundhedsvæsenet, fra at afsløre nye genetiske sammenhænge til at styrke robotkirurgiske systemer ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Stabler partnere med opretholdelse for at lette problemfri handel med aktiver og overførsler, hvilket styrker Bitcoin-adoption
Forretning Nyheds rapport Teknologier
Stabler partnere med opretholdelse for at lette problemfri handel med aktiver og overførsler, hvilket styrker Bitcoin-adoption
Maj 14, 2024
3D Gamification og AI til Redefine uddannelsesindustrien i 2024: Mangefacetterede applikationer, uovertruffent engagement og fordybende oplevelser
Uddannelse Lifestyle Software Historier og anmeldelser Teknologier
3D Gamification og AI til Redefine uddannelsesindustrien i 2024: Mangefacetterede applikationer, uovertruffent engagement og fordybende oplevelser 
Maj 14, 2024
Hvordan OpenAI's seneste model nedbryder barrierer, integrerer tekst, lyd og visuelle input for at skabe en problemfri brugeroplevelse
Uddannelse Lifestyle Software Historier og anmeldelser Teknologier
Hvordan OpenAI's seneste model nedbryder barrierer, integrerer tekst, lyd og visuelle input for at skabe en problemfri brugeroplevelse
Maj 14, 2024
Bitlayers X-konto mistænkes for at være under angreb, brugere rådes til at være på vagt over for phishing-links
Nyheds rapport Teknologier
Bitlayers X-konto mistænkes for at være under angreb, brugere rådes til at være på vagt over for phishing-links
Maj 14, 2024