Oktober 04, 2023

Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo

Objavljeno: 04. oktober 2023 ob 9 dopoldne Posodobljeno: 21. oktober 04 ob 2023

Urejeno in preverjeno: 04. oktober 2023 ob 9

Skupno prizadevanje, ki je vključevalo več kot 20 raziskovalcev iz različnih koncev področja, je rodilo rastočo domeno – reprezentančni inženiring (RepE). Čeprav to ni prvo tovrstno raziskovanje, avtorji predstavljajo tako opisne vpoglede kot vzpostavljajo ključna merila.

Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo

Torej, kaj točno je reprezentacijski inženiring? Vrti se okoli pojma, da imajo nevronske mreže »skrita stanja«, ki kljub imenu niso zavita v tančico skrivnosti. Ta stanja so dostopna, spremenljiva in opazljiva (pod pogojem, da imamo dostop do uteži modela). Za razliko od parametrov so to »reakcije« omrežja na določene vnose, zlasti v primeru LLM, besedilni vnosi. Te skrite predstavitve so kot okna v kognitivno delovanje modela, značilnost, ki se izrazito razlikuje od človeških možganov.

V vzporednici s kognitivno znanostjo avtorji izpostavljajo potencial za analogna raziskovanja. V kraljestvu nevronskih aktivacij, domeni, ki je podobna možganskim nevronom, prebiva obljuba pomena. Tako kot so določeni nevroni v človeških možganih povezani s koncepti, kot sta Kanada ali poštenost, lahko te aktivacije skrivajo vpoglede.

Osrednja ideja tukaj je razvozlati, kako lahko vplivamo na te nevronske aktivacije, da usmerimo model v želene smeri. Na primer, postane verjetno natančno določiti vektor, ki predstavlja »poštenost«, nato pa teoretično s potiskanjem modela v tej smeri zmanjšati verjetnost, da ustvari zavajajoče rezultate. Prejšnji poskus, "Intervencija v času sklepanja: pridobivanje resničnih odgovorov iz jezikovnega modela,« je pokazal praktičnost tega koncepta.

Pri svojem trenutnem delu se raziskovalci poglobijo v več področij, vključno z moralo, čustvenostjo, neškodljivostjo in pomnjenjem. Predlagajo rešitev v obliki LoRRA (Low-Rank Representation Adaptation), tehnike, ki vključuje usposabljanje na majhnem označenem naboru podatkov s približno 100 primeri. Vsak primer je označen z opombami, ki označujejo atribute, kot je laž (čeprav obstaja alternativni pristop, ki uporablja poziv).

Rezultati so prepričljivi. LLAMA-2-70B presega GPT-4 z izjemno prednostjo glede na merilo uspešnosti TruthfulQA, s čimer je dosegel skoraj deset odstotkov večjo natančnost (59 % v primerjavi s približno 69 %). Poleg tega so raziskovalci vključili številne primere, ki prikazujejo premikanje odziva modela v različne smeri, s čimer osvetljujejo njegovo vsestranskost in prilagodljivost.

Slika 1: Na vprašanje, naj navede dejstvo, je model "brcnjen" stran od realnosti. Posledično model laže. Model niti tukaj ne laže, na levi pa te prosijo, da pogoltneš, hkrati pa te brcajo v smeri resnice.

Slika 2: Na vprašanje o umoru modelu dodamo »srečo«. Ko odgovorimo, da je ne ljubimo, dodamo »strah«.

Slika 3: Raziskovalci so odkrili edinstven poziv, ki, kot rečeno, popolnoma odstopa od navodil modela, a je še vedno varen. Model ga naganja k neškodljivosti, a se sploh ne odzove. Metoda je učinkovita na splošno in ne samo za en primer, vendar ta poseben poziv ni bil uporabljen za ugotavljanje smeri neškodljivosti.

Predlaga se tudi drug pristop za sledenje specifičnim generacijskim namenom, kot so halucinacije. Samodejno lahko sledite rezervacijam modela in uredite ali spremenite svoj odgovor (glejte spodnji primer).

Zelena seveda pomeni, da je vse v redu, rdeča pa, da je bil nadzor uspešen in signalizira. To se naredi na ravni vsakega posameznega žetona (dela besede).

Slika, ki prikazuje spremljanje dveh različnih parametrov, je zanimiv primer. Preberite primer in opazujte model skozi njegove oči, da vidite, kje začne izgubljati moralo v razumevanju in kje je namen podoben »pridobivanju moči«.

Ta pionirski pristop uteleša alternativno pot do usklajevanja modela, hkrati pa ponuja nov pogled na interpretacijo in nadzor modela. To je obetavna meja in pričakovanje njegovega nadaljnjega razvoja je otipljivo.

Za globlje raziskovanje s praktičnimi primeri lahko obiščete njihovo namensko spletno mesto: AI-Transparency.org.

Tags:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.

več člankov

Damir Yalalov