DI tyrėjai išmokė didelių kalbų modelių mažiau meluoti


Bendradarbiaujant daugiau nei 20 mokslininkų iš įvairių sričių, atsirado klestinti sritis – reprezentacijos inžinerija (RepE). Nors tai nėra pirmasis tokio pobūdžio tyrimas, autoriai pateikia ir aprašomąsias įžvalgas, ir nustato esminius etalonus.

Taigi, kas tiksliai yra reprezentacijos inžinerija? Tai sukasi aplink mintį, kad neuroniniai tinklai turi „paslėptas būsenas“, kurios, nepaisant jų pavadinimo, nėra gaubtos paslaptyje. Šios būsenos yra prieinamos, keičiamos ir stebimos (jei yra prieiga prie modelio svorių). Skirtingai nuo parametrų, tai yra tinklo „reakcijos“ į konkrečias įvestis, ypač kai LLM, teksto įvestis. Šios paslėptos vaizdinės yra tarsi langai į modelio kognityvinį veikimą – tai ypatybė, kuri aiškiai skiriasi nuo žmogaus smegenų.
Lygtelėdami su kognityviniu mokslu, autoriai pabrėžia analogiškų tyrinėjimų potencialą. Neuroninių aktyvacijų srityje, smegenų neuronams analogiškoje srityje, slypi prasmės pažadas. Lygiai taip pat, kaip tam tikri žmogaus smegenų neuronai yra susieti su tokiomis sąvokomis kaip Kanada ar sąžiningumas, šie aktyvavimai gali turėti įžvalgų.
Pagrindinė idėja čia yra iššifruoti, kaip galime paveikti šiuos nervinius aktyvavimus, kad modelis būtų nukreiptas norimomis kryptimis. Pavyzdžiui, tampa tikėtina tiksliai nustatyti vektorių, vaizduojantį „sąžiningumą“, o tada teoriškai, stumiant modelį šia kryptimi, sumažinti tikimybę, kad jis duos apgaulingus rezultatus. Ankstesnis eksperimentas „Intervencija iš išvados ir laiko: teisingų atsakymų iš kalbos modelio gavimas“, pademonstravo šios koncepcijos praktiškumą.
Savo dabartiniame darbe mokslininkai gilinasi į kelias sritis, įskaitant moralę, emocionalumą, nekenksmingumą ir įsiminimą. Jie siūlo sprendimą LoRRA (žemo rango reprezentacijos pritaikymo) forma, techniką, kuri apima mokymą apie nedidelį pažymėtą duomenų rinkinį, kuriame yra maždaug 100 pavyzdžių. Kiekvienas pavyzdys yra komentuojamas, nurodant tokius požymius kaip melas (nors yra alternatyvus metodas, kuriame naudojamas raginimas).
Rezultatai yra įtikinami. LLAMA-2-70B pranoksta GPT-4 nepaprastu skirtumu pagal TruthfulQA etaloną, pasiekiant beveik dešimt procentų didesnį tikslumą (59%, palyginti su maždaug 69%). Be to, mokslininkai įtraukė daugybę pavyzdžių, parodančių modelio atsako pokyčius įvairiomis kryptimis, atskleisdami jo universalumą ir pritaikomumą.




Žalia, žinoma, reiškia, kad viskas tvarkoje, o raudona – kad stebėjimas buvo sėkmingas ir signalizuoja. Tai daroma kiekvieno atskiro žetono (žodžio dalies) lygiu.

Šis novatoriškas požiūris įkūnija alternatyvų kelią modelio derinimo link, o kartu siūlo naują modelio interpretavimo ir valdymo perspektyvą. Tai daug žadanti siena, o tolesnės jos raidos laukimas yra apčiuopiamas.
Norėdami išsamiau ištirti praktinius pavyzdžius, galite apsilankyti jų svetainėje: AI-Transparency.org.
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsnių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.