Istraživači umjetne inteligencije naučili su modele velikih jezika da manje lažu
Zajednički napor koji uključuje više od 20 istraživača iz različitih kutova polja iznjedrio je sve veću domenu – reprezentativni inženjering (RepE). Iako ovo nije prvo istraživanje takve vrste, autori predstavljaju i opisne uvide i uspostavljaju ključna mjerila.
Dakle, što je zapravo reprezentativni inženjering? Vrti se oko ideje da neuronske mreže posjeduju "skrivena stanja", koja, unatoč svom nazivu, nisu obavijena velom tajne. Ta su stanja dostupna, modificirana i vidljiva (pod uvjetom da se ima pristup težinama modela). Za razliku od parametara, ovo su "reakcije" mreže na specifične ulaze, osobito u slučaju LLMs, tekstualni unosi. Ove skrivene reprezentacije su poput prozora u kognitivni rad modela, značajku koja se izrazito razlikuje od ljudskog mozga.
Povlačeći paralele s kognitivnom znanošću, autori ističu potencijal za analogna istraživanja. U području neuralnih aktivacija, domeni analognoj moždanim neuronima, nalazi se obećanje značenja. Baš kao što su određeni neuroni u ljudskom mozgu povezani s konceptima poput Kanade ili poštenja, ove aktivacije mogu sadržavati uvide.
Središnja ideja ovdje je dešifrirati kako možemo utjecati na te neuralne aktivacije da usmjerimo model u željenom smjeru. Na primjer, postaje moguće točno odrediti vektor koji predstavlja "poštenje", a zatim, teoretski, guranjem modela u tom smjeru, smanjiti vjerojatnost da proizvede varljive rezultate. Raniji eksperiment, "Intervencija vremena zaključivanja: izvlačenje istinitih odgovora iz jezičnog modela”, pokazao je praktičnost ovog koncepta.
U svom trenutnom radu, istraživači istražuju nekoliko domena, uključujući moralnost, emocionalnost, bezopasnost i pamćenje. Oni predlažu rješenje u obliku LoRRA (Low-Rank Representation Adaptation), tehnike koja uključuje obuku na malom označenom skupu podataka od približno 100 primjera. Svaki primjer je označen, ukazujući na atribute kao što je laž (iako postoji alternativni pristup koji koristi upit).
Rezultati su uvjerljivi. LLAMA-2-70B nadmašuje GPT-4 izvanrednom razlikom na TruthfulQA benchmarku, postižući gotovo deset posto bolju točnost (59% u usporedbi s približno 69%). Dodatno, istraživači su uključili brojne primjere koji pokazuju promjene odgovora modela u različitim smjerovima, bacajući svjetlo na njegovu svestranost i prilagodljivost.

Zeleno, naravno, označava da je sve u redu, a crveno da je nadzor bio uspješan i da signalizira. To se radi na razini svakog pojedinog tokena (dijela riječi).
Ovaj pionirski pristup utjelovljuje alternativni put prema usklađivanju modela, dok istodobno nudi novu perspektivu tumačenja i kontrole modela. To je granica koja obećava, a iščekivanje njegovog kontinuiranog razvoja je opipljivo.
Za dublje istraživanje s praktičnim primjerima, možete posjetiti njihovu namjensku web stranicu: AI-Transparency.org.
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članaka
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.