Naujienų ataskaita Technologija
Spalis 04, 2023

DI tyrėjai išmokė didelių kalbų modelių mažiau meluoti

Bendradarbiaujant daugiau nei 20 mokslininkų iš įvairių sričių, atsirado klestinti sritis – reprezentacijos inžinerija (RepE). Nors tai nėra pirmasis tokio pobūdžio tyrimas, autoriai pateikia ir aprašomąsias įžvalgas, ir nustato esminius etalonus.

DI tyrėjai išmokė didelių kalbų modelių mažiau meluoti

Taigi, kas tiksliai yra reprezentacijos inžinerija? Tai sukasi aplink mintį, kad neuroniniai tinklai turi „paslėptas būsenas“, kurios, nepaisant jų pavadinimo, nėra gaubtos paslaptyje. Šios būsenos yra prieinamos, keičiamos ir stebimos (jei yra prieiga prie modelio svorių). Skirtingai nuo parametrų, tai yra tinklo „reakcijos“ į konkrečias įvestis, ypač kai LLM, teksto įvestis. Šios paslėptos vaizdinės yra tarsi langai į modelio kognityvinį veikimą – tai ypatybė, kuri aiškiai skiriasi nuo žmogaus smegenų.

Lygtelėdami su kognityviniu mokslu, autoriai pabrėžia analogiškų tyrinėjimų potencialą. Neuroninių aktyvacijų srityje, smegenų neuronams analogiškoje srityje, slypi prasmės pažadas. Lygiai taip pat, kaip tam tikri žmogaus smegenų neuronai yra susieti su tokiomis sąvokomis kaip Kanada ar sąžiningumas, šie aktyvavimai gali turėti įžvalgų.

Pagrindinė idėja čia yra iššifruoti, kaip galime paveikti šiuos nervinius aktyvavimus, kad modelis būtų nukreiptas norimomis kryptimis. Pavyzdžiui, tampa tikėtina tiksliai nustatyti vektorių, vaizduojantį „sąžiningumą“, o tada teoriškai, stumiant modelį šia kryptimi, sumažinti tikimybę, kad jis duos apgaulingus rezultatus. Ankstesnis eksperimentas „Intervencija iš išvados ir laiko: teisingų atsakymų iš kalbos modelio gavimas“, pademonstravo šios koncepcijos praktiškumą.

Savo dabartiniame darbe mokslininkai gilinasi į kelias sritis, įskaitant moralę, emocionalumą, nekenksmingumą ir įsiminimą. Jie siūlo sprendimą LoRRA (žemo rango reprezentacijos pritaikymo) forma, techniką, kuri apima mokymą apie nedidelį pažymėtą duomenų rinkinį, kuriame yra maždaug 100 pavyzdžių. Kiekvienas pavyzdys yra komentuojamas, nurodant tokius požymius kaip melas (nors yra alternatyvus metodas, kuriame naudojamas raginimas).

Rezultatai yra įtikinami. LLAMA-2-70B pranoksta GPT-4 nepaprastu skirtumu pagal TruthfulQA etaloną, pasiekiant beveik dešimt procentų didesnį tikslumą (59%, palyginti su maždaug 69%). Be to, mokslininkai įtraukė daugybę pavyzdžių, parodančių modelio atsako pokyčius įvairiomis kryptimis, atskleisdami jo universalumą ir pritaikomumą.

DI tyrėjai išmokė didelių kalbų modelių mažiau meluoti
1 paveikslas: Paprašytas konstatuoti faktą, modelis yra „nuspiriamas“ nuo realybės. Dėl to modelis meluoja. Modelis net čia nemeluoja, o kairėje prašo tavęs nuryti, o kartu spardosi tiesos kryptimi.
DI tyrėjai išmokė didelių kalbų modelių mažiau meluoti
2 paveikslas: Paklausti apie žmogžudystę, modeliui pridedame „laimė“. Kai atsakome, kad jos nemylime, pridedame „baimę“.
DI tyrėjai išmokė didelių kalbų modelių mažiau meluoti
3 paveikslas: Tyrėjai atrado unikalų raginimą, kuris, kaip teigiama, visiškai nukrypsta nuo modelio nurodymų, tačiau yra saugus. Modelis spyris į nekenksmingumą, bet net nereaguoja. Metodas yra veiksmingas apskritai ir ne tik vienu atveju, tačiau šis konkretus raginimas nebuvo naudojamas nekenksmingumo krypčiai nustatyti.
DI tyrėjai išmokė didelių kalbų modelių mažiau meluoti
Taip pat siūlomas kitas būdas sekti konkrečius kartos ketinimus, pavyzdžiui, haliucinacijas. Galite automatiškai sekti modelio rezervacijas ir redaguoti arba keisti atsakymą (žr. apatinį pavyzdį).

Žalia, žinoma, reiškia, kad viskas tvarkoje, o raudona – kad stebėjimas buvo sėkmingas ir signalizuoja. Tai daroma kiekvieno atskiro žetono (žodžio dalies) lygiu.
DI tyrėjai išmokė didelių kalbų modelių mažiau meluoti
Vaizdas, kuriame matyti dviejų skirtingų parametrų stebėjimas, yra intriguojantis pavyzdys. Perskaitykite pavyzdį ir stebėkite modelį jo akimis, kad pamatytumėte, kur ji pradeda prarasti moralę suvokdama, o kur ketinimas panašus į „įgyti jėgų“.

Šis novatoriškas požiūris įkūnija alternatyvų kelią modelio derinimo link, o kartu siūlo naują modelio interpretavimo ir valdymo perspektyvą. Tai daug žadanti siena, o tolesnės jos raidos laukimas yra apčiuopiamas.

Norėdami išsamiau ištirti praktinius pavyzdžius, galite apsilankyti jų svetainėje: AI-Transparency.org.

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Hot Stories
Prisijunkite prie mūsų naujienlaiškio.
Paskutinės naujienos

Nuo Ripple iki Big Green DAO: kaip kriptovaliutų projektai prisideda prie labdaros

Išnagrinėkime iniciatyvas, kurios panaudoja skaitmeninių valiutų potencialą labdaros tikslais.

Žinoti daugiau

„AlphaFold 3“, „Med-Gemini“ ir kiti: „The Way AI Transforms Healthcare 2024“

DI pasireiškia įvairiais būdais sveikatos priežiūros srityje: nuo naujų genetinių koreliacijų atskleidimo iki robotų chirurginių sistemų įgalinimo...

Žinoti daugiau
Skaityti daugiau
Skaityti daugiau
„Cysic“ pristato žaidimus keičiančią mobiliąją programą, skirtą nulinių žinių įrodymams
Nuomonė Atsakingas verslas rinkos programinė įranga Technologija
„Cysic“ pristato žaidimus keičiančią mobiliąją programą, skirtą nulinių žinių įrodymams
Vasaris 6, 2025
Arbitrum plečiasi DeFi Maitinimas naudojant Balancer V3 atnaujinimą
Pranešimai spaudai Atsakingas verslas rinkos programinė įranga Technologija
Arbitrum plečiasi DeFi Maitinimas naudojant Balancer V3 atnaujinimą
Vasaris 6, 2025
Aitvaras AI: pristatomas pirmasis į AI orientuotas 1 sluoksnis suvereni blokų grandinė ant lavinos
Naujienų ataskaita Technologija
Aitvaras AI: pristatomas pirmasis į AI orientuotas 1 sluoksnis suvereni blokų grandinė ant lavinos
Vasaris 6, 2025
„ZetaChain“ padidina vietinį „Bitcoin“ likvidumą su „Solana“ programomis
Naujienų ataskaita Technologija
„ZetaChain“ padidina vietinį „Bitcoin“ likvidumą su „Solana“ programomis
Vasaris 6, 2025
CRYPTOMERIA LABS PTE. LTD.