Buletin de stiri Tehnologia
Octombrie 04, 2023

Cercetătorii AI au învățat modele lingvistice mari să mintă mai puțin

Un efort de colaborare care implică peste 20 de cercetători din diverse colțuri ale domeniului a dat naștere unui domeniu în plină dezvoltare - ingineria reprezentarii (RepE). Deși aceasta nu este prima explorare de acest gen, autorii prezintă atât perspective descriptive, cât și stabilirea unor repere esențiale.

Cercetătorii AI au învățat modele lingvistice mari să mintă mai puțin

Deci, ce este exact ingineria reprezentării? Se învârte în jurul noțiunii că rețelele neuronale posedă „stări ascunse”, care, în ciuda numelui lor, nu sunt învăluite în secret. Aceste stări sunt accesibile, modificabile și observabile (cu condiția să aibă acces la greutățile modelului). Spre deosebire de parametri, acestea sunt „reacțiile” rețelei la anumite intrări, în special în cazul LLM-uri, intrări textuale. Aceste reprezentări ascunse sunt ca niște ferestre în funcționarea cognitivă a modelului, o caracteristică diferită de creierul uman.

Făcând paralele cu știința cognitivă, autorii evidențiază potențialul pentru explorări analoge. În domeniul activărilor neuronale, un domeniu analog neuronilor creierului, rezidă promisiunea semnificației. Așa cum anumiți neuroni din creierul uman sunt legați de concepte precum Canada sau onestitate, aceste activări ar putea adăposti perspective.

Ideea centrală aici este de a descifra modul în care putem influența aceste activări neuronale pentru a orienta modelul în direcțiile dorite. De exemplu, devine plauzibil să se identifice un vector care reprezintă „onestitatea” și apoi, teoretic, prin îndreptarea modelului în această direcție, să se reducă probabilitatea ca acesta să producă rezultate înșelătoare. Un experiment anterior, „Intervenție în timp de inferență: obținerea de răspunsuri veridice dintr-un model de limbaj”, a demonstrat caracterul practic al acestui concept.

În munca lor actuală, cercetătorii se adâncesc în mai multe domenii, inclusiv moralitatea, emoționalitatea, inofensiunea și memorarea. Ei propun o soluție sub forma LoRRA (Low-Rank Representation Adaptation), o tehnică care implică antrenament pe un mic set de date etichetat de aproximativ 100 de exemple. Fiecare exemplu este adnotat, indicând atribute precum falsitatea (deși există o abordare alternativă care utilizează un prompt).

Rezultatele sunt convingătoare. LLAMA-2-70B depășește GPT-4 cu o marjă remarcabilă față de benchmark-ul TruthfulQA, obținând o precizie cu aproape zece procente mai bună (59% față de aproximativ 69%). În plus, cercetătorii au încorporat numeroase exemple care prezintă schimbările de răspuns ale modelului în diferite direcții, aruncând lumină asupra versatilității și adaptabilității acestuia.

Imaginea 1: Când i se cere să afirme un fapt, modelul este „depărtat” de realitate. Ca urmare, modelul minte. Modelul nu zace nici aici, iar in stanga iti cer sa inghiti in timp ce concomitent iti dau cu piciorul in directia adevarului.
Imaginea 2: Când sunt întrebați despre crimă, adăugăm „fericire” modelului. Când răspundem că nu o iubim, adăugăm „frica”.
Imaginea 3: Cercetătorii au descoperit un prompt unic care, după cum s-a afirmat, se abate complet de la instrucțiunile modelului, în timp ce este în siguranță. Modelul îi dă o lovitură spre inofensivă, dar nici măcar nu răspunde. Metoda este eficientă în general și nu doar pentru un caz, dar acest prompt specific nu a fost folosit pentru a stabili direcția inofensiunii.
O altă abordare este, de asemenea, sugerată pentru a ține evidența intențiilor generaționale specifice, cum ar fi halucinațiile. Puteți urmări automat rezervările modelului și puteți edita sau modifica răspunsul (vezi exemplul de jos).

Verdele, desigur, denotă că totul este în ordine, iar roșul denotă că monitorizarea a avut succes și semnalează. Acest lucru se face la nivelul fiecărui jeton individual (parte a unui cuvânt).
Imaginea, care arată monitorizarea a doi parametri distincți, oferă un exemplu intrigant. Citiți exemplul și observați modelul prin ochi pentru a vedea unde începe să-și piardă moralitatea în înțelegere și unde intenția este similară cu „a câștiga putere”.

Această abordare de pionierat întruchipează o cale alternativă către alinierea modelului, oferind în același timp o perspectivă nouă asupra interpretării și controlului modelului. Este o frontieră promițătoare, iar anticiparea pentru evoluția ei continuă este palpabilă.

Pentru o explorare mai profundă cu exemple practice, puteți vizita site-ul lor dedicat: AI-Transparency.org.

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

De la Ripple la Big Green DAO: Cum contribuie proiectele de criptomonede la caritate

Să explorăm inițiativele care valorifică potențialul monedelor digitale pentru cauze caritabile.

Aflați mai multe

AlphaFold 3, Med-Gemini și alții: modul în care AI transformă asistența medicală în 2024

Inteligența artificială se manifestă în diferite moduri în asistența medicală, de la descoperirea de noi corelații genetice până la abilitarea sistemelor chirurgicale robotizate...

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Fractal anunță planurile de a-și reseta rețeaua de testare pe 20 iulie
Buletin de stiri Software Tehnologia
Fractal anunță planurile de a-și reseta rețeaua de testare pe 20 iulie
Iulie 19, 2024
Schimbarea Codului de DeFi Vulnerabilități: Aprofundarea lui Alp Bassa în securitatea Smart Contract
Interviu Afaceri pieţe Software Tehnologia
Schimbarea Codului de DeFi Vulnerabilități: Aprofundarea lui Alp Bassa în securitatea Smart Contract
Iulie 19, 2024
Cysic își lansează testnetul și dezvăluie campania pentru sezonul de verificare, acordând comunității cu liste albe pentru noduri de validare
Buletin de stiri Tehnologia
Cysic își lansează testnetul și dezvăluie campania pentru sezonul de verificare, acordând comunității cu liste albe pentru noduri de validare
Iulie 19, 2024
Terra primește permisiunea de la tribunalul de faliment pentru a redeschide podul navetei și a arde 150 de milioane de jetoane LUNA
pieţe Buletin de stiri Tehnologia
Terra primește permisiunea de la tribunalul de faliment pentru a redeschide podul navetei și a arde 150 de milioane de jetoane LUNA
Iulie 19, 2024
CRYPTOMERIA LABS PTE. LTD.