Novice Tehnologija
Oktober 04, 2023

Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo

Skupno prizadevanje, ki je vključevalo več kot 20 raziskovalcev iz različnih koncev področja, je rodilo rastočo domeno – reprezentančni inženiring (RepE). Čeprav to ni prvo tovrstno raziskovanje, avtorji predstavljajo tako opisne vpoglede kot vzpostavljajo ključna merila.

Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo

Torej, kaj točno je reprezentacijski inženiring? Vrti se okoli pojma, da imajo nevronske mreže »skrita stanja«, ki kljub imenu niso zavita v tančico skrivnosti. Ta stanja so dostopna, spremenljiva in opazljiva (pod pogojem, da imamo dostop do uteži modela). Za razliko od parametrov so to »reakcije« omrežja na določene vnose, zlasti v primeru LLM, besedilni vnosi. Te skrite predstavitve so kot okna v kognitivno delovanje modela, značilnost, ki se izrazito razlikuje od človeških možganov.

V vzporednici s kognitivno znanostjo avtorji izpostavljajo potencial za analogna raziskovanja. V kraljestvu nevronskih aktivacij, domeni, ki je podobna možganskim nevronom, prebiva obljuba pomena. Tako kot so določeni nevroni v človeških možganih povezani s koncepti, kot sta Kanada ali poštenost, lahko te aktivacije skrivajo vpoglede.

Osrednja ideja tukaj je razvozlati, kako lahko vplivamo na te nevronske aktivacije, da usmerimo model v želene smeri. Na primer, postane verjetno natančno določiti vektor, ki predstavlja »poštenost«, nato pa teoretično s potiskanjem modela v tej smeri zmanjšati verjetnost, da ustvari zavajajoče rezultate. Prejšnji poskus, "Intervencija v času sklepanja: pridobivanje resničnih odgovorov iz jezikovnega modela,« je pokazal praktičnost tega koncepta.

Pri svojem trenutnem delu se raziskovalci poglobijo v več področij, vključno z moralo, čustvenostjo, neškodljivostjo in pomnjenjem. Predlagajo rešitev v obliki LoRRA (Low-Rank Representation Adaptation), tehnike, ki vključuje usposabljanje na majhnem označenem naboru podatkov s približno 100 primeri. Vsak primer je označen z opombami, ki označujejo atribute, kot je laž (čeprav obstaja alternativni pristop, ki uporablja poziv).

Rezultati so prepričljivi. LLAMA-2-70B presega GPT-4 z izjemno prednostjo glede na merilo uspešnosti TruthfulQA, s čimer je dosegel skoraj deset odstotkov večjo natančnost (59 % v primerjavi s približno 69 %). Poleg tega so raziskovalci vključili številne primere, ki prikazujejo premikanje odziva modela v različne smeri, s čimer osvetljujejo njegovo vsestranskost in prilagodljivost.

Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo
Slika 1: Na vprašanje, naj navede dejstvo, je model "brcnjen" stran od realnosti. Posledično model laže. Model niti tukaj ne laže, na levi pa te prosijo, da pogoltneš, hkrati pa te brcajo v smeri resnice.
Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo
Slika 2: Na vprašanje o umoru modelu dodamo »srečo«. Ko odgovorimo, da je ne ljubimo, dodamo »strah«.
Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo
Slika 3: Raziskovalci so odkrili edinstven poziv, ki, kot rečeno, popolnoma odstopa od navodil modela, a je še vedno varen. Model ga naganja k neškodljivosti, a se sploh ne odzove. Metoda je učinkovita na splošno in ne samo za en primer, vendar ta poseben poziv ni bil uporabljen za ugotavljanje smeri neškodljivosti.
Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo
Predlaga se tudi drug pristop za sledenje specifičnim generacijskim namenom, kot so halucinacije. Samodejno lahko sledite rezervacijam modela in uredite ali spremenite svoj odgovor (glejte spodnji primer).

Zelena seveda pomeni, da je vse v redu, rdeča pa, da je bil nadzor uspešen in signalizira. To se naredi na ravni vsakega posameznega žetona (dela besede).
Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo
Slika, ki prikazuje spremljanje dveh različnih parametrov, je zanimiv primer. Preberite primer in opazujte model skozi njegove oči, da vidite, kje začne izgubljati moralo v razumevanju in kje je namen podoben »pridobivanju moči«.

Ta pionirski pristop uteleša alternativno pot do usklajevanja modela, hkrati pa ponuja nov pogled na interpretacijo in nadzor modela. To je obetavna meja in pričakovanje njegovega nadaljnjega razvoja je otipljivo.

Za globlje raziskovanje s praktičnimi primeri lahko obiščete njihovo namensko spletno mesto: AI-Transparency.org.

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Zatišje pred nevihto Solana: Kaj zdaj sporočajo grafikoni, kiti in signali na verigi

Solana je pokazala močno uspešnost, ki jo je spodbudilo vse večje sprejemanje, institucionalno zanimanje in ključna partnerstva, hkrati pa se sooča s potencialnimi ...

Več o tem

Kriptovalute aprila 2025: ključni trendi, premiki in kaj sledi

Aprila 2025 se je kripto prostor osredotočil na krepitev osrednje infrastrukture, Ethereum pa se je pripravljal na Pectro ...

Več o tem
Preberi več
Preberi več
Nexo si je zagotovil večletno naslovno sponzorstvo ameriškega ATP 500 Dallas Open
Novice Tehnologija
Nexo si je zagotovil večletno naslovno sponzorstvo ameriškega ATP 500 Dallas Open
Januar 13, 2026
Microsoft poudarja naraščajočo vrzel v umetni inteligenci: ZAE vodijo, ZDA padajo, DeepSeek pa se širi v nastajajoča gospodarstva
Novice Tehnologija
Microsoft poudarja naraščajočo vrzel v umetni inteligenci: ZAE vodijo, ZDA padajo, DeepSeek pa se širi v nastajajoča gospodarstva
Januar 13, 2026
Safe in Ethena sodelujeta pri krepitvi USDe na večpodpisnih denarnicah
Novice
Safe in Ethena sodelujeta pri krepitvi USDe na večpodpisnih denarnicah
Januar 13, 2026
Google širi zmogljivosti maloprodaje, ki jih poganja umetna inteligenca, z novo platformo za nakupovalne agente
Mnenje Življenjski slog Novice Tehnologija
Google širi zmogljivosti maloprodaje, ki jih poganja umetna inteligenca, z novo platformo za nakupovalne agente
Januar 13, 2026
CRYPTOMERIA LABS PTE. LTD.