Oktoober 04, 2023

AI-teadlased on õpetanud suuri keelemudeleid vähem valetama

Avaldatud: 04. oktoober 2023 kell 9:21 Värskendatud: 04. oktoober 2023 kell 9:23

Muudetud ja faktide alusel kontrollitud: 04. oktoober 2023, kell 9:21

Rohkem kui 20 teadlast valdkonna erinevatest nurkadest koosnev koostöö on loonud areneva valdkonna – esindustehnika (RepE). Kuigi see pole esimene omataoline uurimine, esitavad autorid nii kirjeldavaid teadmisi kui ka määravad olulised võrdlusalused.

AI-teadlased on õpetanud suuri keelemudeleid vähem valetama

Niisiis, mis täpselt on esindustehnika? See keerleb arusaama ümber, et närvivõrkudel on "varjatud olekud", mis hoolimata nende nimest ei ole saladuses. Need olekud on juurdepääsetavad, muudetavad ja jälgitavad (eeldusel, et on juurdepääs mudeli kaaludele). Erinevalt parameetritest on need võrgu "reaktsioonid" konkreetsetele sisenditele, eriti kui LLM-id, tekstisisendeid. Need peidetud esitused on nagu aknad mudeli kognitiivsesse töösse, mis erineb selgelt inimese ajust.

Tuues paralleele kognitiivteadusega, toovad autorid esile analoogsete uurimiste potentsiaali. Neuraalsete aktivatsioonide valdkonnas, aju neuronitega analoogilises domeenis, on tähenduse lubadus. Nii nagu teatud neuronid inimese ajus on seotud selliste mõistetega nagu Kanada või ausus, võivad need aktiveerimised sisaldada teadmisi.

Keskne idee on siin dešifreerida, kuidas saaksime neid närviaktivatsioone mõjutada, et juhtida mudelit soovitud suundadesse. Näiteks muutub usutavaks määrata "ausust" esindav vektor ja seejärel teoreetiliselt mudelit selles suunas nihutades vähendada tõenäosust, et see annab petlikke väljundeid. Varasem eksperiment "Järeldus-ajaline sekkumine: tõeste vastuste leidmine keelemudelist”, demonstreeris selle kontseptsiooni praktilisust.

Oma praeguses töös uurivad teadlased mitmeid valdkondi, sealhulgas moraali, emotsionaalsust, kahjutust ja meeldejätmist. Nad pakuvad välja lahenduse LoRRA (madalatasemelise esituse kohandamise) vormis – tehnika, mis hõlmab umbes 100 näitest koosneva väikese märgistatud andmekogumi koolitust. Igale näitele on lisatud märkused, mis näitavad selliseid atribuute nagu vale (kuigi on olemas alternatiivne lähenemine, mis kasutab viipa).

Tulemused on veenvad. LLAMA-2-70B ületab GPT-4 Märkimisväärse marginaaliga TruthfulQA etalonil, saavutades peaaegu kümme protsenti parema täpsuse (59% võrreldes ligikaudu 69%). Lisaks on teadlased lisanud arvukalt näiteid, mis näitavad mudeli reageerimisnihkeid erinevates suundades, valgustades selle mitmekülgsust ja kohanemisvõimet.

Pilt 1: Kui modellil palutakse fakti väita, "löötakse" reaalsusest eemale. Selle tulemusena modell valetab. Modell ei valeta isegi siin ja vasakul palutakse sul alla neelata, samal ajal lööb sind tõe suunas.

Pilt 2: Kui küsitakse mõrva kohta, lisame modellile “õnne”. Kui vastame, et me ei armasta teda, lisame "hirmu".

Pilt 3: Teadlased avastasid ainulaadse viipe, mis, nagu öeldud, kaldub täielikult kõrvale mudeli juhistest, kuid on siiski ohutu. Mudel annab sellele löögi kahjutuse poole, kuid isegi ei reageeri. Meetod on tõhus üldiselt ja mitte ainult ühe juhtumi puhul, kuid seda konkreetset viipa ei kasutatud kahjutuse suuna kindlakstegemiseks.

Teist lähenemisviisi soovitatakse ka konkreetsete põlvkondade kavatsuste, näiteks hallutsinatsioonide jälgimiseks. Saate automaatselt jälgida mudeli broneeringuid ning redigeerida või muuta oma vastust (vt alumist näidet).

Roheline tähistab loomulikult seda, et kõik on korras ja punane, et seire on õnnestunud ja annab märku. Seda tehakse iga üksiku märgi (sõna osa) tasemel.

Pilt, mis näitab kahe erineva parameetri jälgimist, on intrigeeriv näide. Lugege näidet ja jälgige mudelit läbi selle silmade, et näha, kus ta hakkab kaotama mõistmise moraali ja kus on kavatsus sarnane "jõu kogumisega".

See teedrajav lähenemisviis hõlmab alternatiivset teed mudelite joondamiseks, pakkudes samal ajal uudset perspektiivi mudeli tõlgendamise ja juhtimise kohta. See on paljutõotav piir ja selle jätkuva arengu ootus on käegakatsutav.

Praktiliste näidetega põhjalikumaks uurimiseks võite külastada nende spetsiaalset veebisaiti: AI-Transparency.org.

Sildid:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.

Veel artikleid

Damir Jalalov