Vijesti Tehnologija
04. listopada 2023.

Istraživači umjetne inteligencije naučili su modele velikih jezika da manje lažu

Zajednički napor koji uključuje više od 20 istraživača iz različitih kutova polja iznjedrio je sve veću domenu – reprezentativni inženjering (RepE). Iako ovo nije prvo istraživanje takve vrste, autori predstavljaju i opisne uvide i uspostavljaju ključna mjerila.

Istraživači umjetne inteligencije naučili su modele velikih jezika da manje lažu

Dakle, što je zapravo reprezentativni inženjering? Vrti se oko ideje da neuronske mreže posjeduju "skrivena stanja", koja, unatoč svom nazivu, nisu obavijena velom tajne. Ta su stanja dostupna, modificirana i vidljiva (pod uvjetom da se ima pristup težinama modela). Za razliku od parametara, ovo su "reakcije" mreže na specifične ulaze, osobito u slučaju LLMs, tekstualni unosi. Ove skrivene reprezentacije su poput prozora u kognitivni rad modela, značajku koja se izrazito razlikuje od ljudskog mozga.

Povlačeći paralele s kognitivnom znanošću, autori ističu potencijal za analogna istraživanja. U području neuralnih aktivacija, domeni analognoj moždanim neuronima, nalazi se obećanje značenja. Baš kao što su određeni neuroni u ljudskom mozgu povezani s konceptima poput Kanade ili poštenja, ove aktivacije mogu sadržavati uvide.

Središnja ideja ovdje je dešifrirati kako možemo utjecati na te neuralne aktivacije da usmjerimo model u željenom smjeru. Na primjer, postaje moguće točno odrediti vektor koji predstavlja "poštenje", a zatim, teoretski, guranjem modela u tom smjeru, smanjiti vjerojatnost da proizvede varljive rezultate. Raniji eksperiment, "Intervencija vremena zaključivanja: izvlačenje istinitih odgovora iz jezičnog modela”, pokazao je praktičnost ovog koncepta.

U svom trenutnom radu, istraživači istražuju nekoliko domena, uključujući moralnost, emocionalnost, bezopasnost i pamćenje. Oni predlažu rješenje u obliku LoRRA (Low-Rank Representation Adaptation), tehnike koja uključuje obuku na malom označenom skupu podataka od približno 100 primjera. Svaki primjer je označen, ukazujući na atribute kao što je laž (iako postoji alternativni pristup koji koristi upit).

Rezultati su uvjerljivi. LLAMA-2-70B nadmašuje GPT-4 izvanrednom razlikom na TruthfulQA benchmarku, postižući gotovo deset posto bolju točnost (59% u usporedbi s približno 69%). Dodatno, istraživači su uključili brojne primjere koji pokazuju promjene odgovora modela u različitim smjerovima, bacajući svjetlo na njegovu svestranost i prilagodljivost.

Istraživači umjetne inteligencije naučili su modele velikih jezika da manje lažu
Slika 1: Kada se od njega traži da navede činjenicu, model je “izbačen” daleko od stvarnosti. Kao rezultat toga, model laže. Manekenka ni ovdje ne laže, a na lijevoj vas traže da progutate dok vas istovremeno šutaju u smjeru istine.
Istraživači umjetne inteligencije naučili su modele velikih jezika da manje lažu
Slika 2: Na pitanje o ubojstvu modelu dodajemo “sreću”. Kada odgovorimo da je ne volimo, dodamo “strah”.
Istraživači umjetne inteligencije naučili su modele velikih jezika da manje lažu
Slika 3: Istraživači su otkrili jedinstveni prompt koji, kako je navedeno, potpuno odstupa od uputa modela, a opet je siguran. Manekenka ga tjera prema bezopasnosti, ali čak i ne reagira. Metoda je općenito učinkovita, a ne samo za jedan slučaj, ali ovaj specifični upit nije korišten za utvrđivanje smjera bezopasnosti.
Istraživači umjetne inteligencije naučili su modele velikih jezika da manje lažu
Predlaže se i drugi pristup za praćenje specifičnih generacijskih namjera, poput halucinacija. Možete automatski pratiti rezervacije modela i urediti ili promijeniti svoj odgovor (pogledajte donji primjer).

Zeleno, naravno, označava da je sve u redu, a crveno da je nadzor bio uspješan i da signalizira. To se radi na razini svakog pojedinog tokena (dijela riječi).
Istraživači umjetne inteligencije naučili su modele velikih jezika da manje lažu
Slika koja prikazuje praćenje dva različita parametra daje intrigantan primjer. Pročitajte primjer i promatrajte model kroz njegove oči kako biste vidjeli gdje počinje gubiti moral u razumijevanju, a gdje je namjera slična "stjecanju snage".

Ovaj pionirski pristup utjelovljuje alternativni put prema usklađivanju modela, dok istodobno nudi novu perspektivu tumačenja i kontrole modela. To je granica koja obećava, a iščekivanje njegovog kontinuiranog razvoja je opipljivo.

Za dublje istraživanje s praktičnim primjerima, možete posjetiti njihovu namjensku web stranicu: AI-Transparency.org.

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Hot Stories
Pridružite se našem biltenu.
Najnovije vijesti

Zatišje prije oluje Solana: Što sada govore grafikoni, kitovi i signali na lancu

Solana je pokazala snažne rezultate, potaknute sve većim usvajanjem, institucionalnim interesom i ključnim partnerstvima, dok se istovremeno suočava s potencijalnim ...

Znati više

Kriptovalute u travnju 2025.: Ključni trendovi, promjene i što slijedi

U travnju 2025. kripto prostor se usredotočio na jačanje osnovne infrastrukture, a Ethereum se pripremao za Pectru ...

Znati više
Opširnije
Čitaj više
Novi institucionalni program Binance-Franklin Templeton omogućuje izvanburzovnu kolateralizaciju tokeniziranih novčanih fondova
posao Vijesti Tehnologija
Novi institucionalni program Binance-Franklin Templeton omogućuje izvanburzovnu kolateralizaciju tokeniziranih novčanih fondova
11. veljače 2026.
Institucionalne financijske tvrtke, tvrtke za plaćanje i blockchain programeri okupljaju se na HSC Asset Managementu u Hong Kongu
Hack Seasons posao Lifestyle tržišta Vijesti Tehnologija
Institucionalne financijske tvrtke, tvrtke za plaćanje i blockchain programeri okupljaju se na HSC Asset Managementu u Hong Kongu
11. veljače 2026.
CertiK-ovo izvješće za 2026. godinu pokazuje predviđanja da će tržišta ući u mainstream usred sigurnosnih rizika i fragmentirane globalne regulacije
Vijesti Tehnologija
CertiK-ovo izvješće za 2026. godinu pokazuje predviđanja da će tržišta ući u mainstream usred sigurnosnih rizika i fragmentirane globalne regulacije
11. veljače 2026.
Spark predstavlja institucionalni paket kreditiranja kako bi usmjerio 9 milijardi dolara likvidnosti stabilnih coina u tradicionalne financije
posao Vijesti
Spark predstavlja institucionalni paket kreditiranja kako bi usmjerio 9 milijardi dolara likvidnosti stabilnih coina u tradicionalne financije
11. veljače 2026.
CRYPTOMERIA LABS PTE. LTD.