Raziskovalci AI so velike jezikovne modele naučili, da manj lažejo
Skupno prizadevanje, ki je vključevalo več kot 20 raziskovalcev iz različnih koncev področja, je rodilo rastočo domeno – reprezentančni inženiring (RepE). Čeprav to ni prvo tovrstno raziskovanje, avtorji predstavljajo tako opisne vpoglede kot vzpostavljajo ključna merila.
Torej, kaj točno je reprezentacijski inženiring? Vrti se okoli pojma, da imajo nevronske mreže »skrita stanja«, ki kljub imenu niso zavita v tančico skrivnosti. Ta stanja so dostopna, spremenljiva in opazljiva (pod pogojem, da imamo dostop do uteži modela). Za razliko od parametrov so to »reakcije« omrežja na določene vnose, zlasti v primeru LLM, besedilni vnosi. Te skrite predstavitve so kot okna v kognitivno delovanje modela, značilnost, ki se izrazito razlikuje od človeških možganov.
V vzporednici s kognitivno znanostjo avtorji izpostavljajo potencial za analogna raziskovanja. V kraljestvu nevronskih aktivacij, domeni, ki je podobna možganskim nevronom, prebiva obljuba pomena. Tako kot so določeni nevroni v človeških možganih povezani s koncepti, kot sta Kanada ali poštenost, lahko te aktivacije skrivajo vpoglede.
Osrednja ideja tukaj je razvozlati, kako lahko vplivamo na te nevronske aktivacije, da usmerimo model v želene smeri. Na primer, postane verjetno natančno določiti vektor, ki predstavlja »poštenost«, nato pa teoretično s potiskanjem modela v tej smeri zmanjšati verjetnost, da ustvari zavajajoče rezultate. Prejšnji poskus, "Intervencija v času sklepanja: pridobivanje resničnih odgovorov iz jezikovnega modela,« je pokazal praktičnost tega koncepta.
Pri svojem trenutnem delu se raziskovalci poglobijo v več področij, vključno z moralo, čustvenostjo, neškodljivostjo in pomnjenjem. Predlagajo rešitev v obliki LoRRA (Low-Rank Representation Adaptation), tehnike, ki vključuje usposabljanje na majhnem označenem naboru podatkov s približno 100 primeri. Vsak primer je označen z opombami, ki označujejo atribute, kot je laž (čeprav obstaja alternativni pristop, ki uporablja poziv).
Rezultati so prepričljivi. LLAMA-2-70B presega GPT-4 z izjemno prednostjo glede na merilo uspešnosti TruthfulQA, s čimer je dosegel skoraj deset odstotkov večjo natančnost (59 % v primerjavi s približno 69 %). Poleg tega so raziskovalci vključili številne primere, ki prikazujejo premikanje odziva modela v različne smeri, s čimer osvetljujejo njegovo vsestranskost in prilagodljivost.
Ta pionirski pristop uteleša alternativno pot do usklajevanja modela, hkrati pa ponuja nov pogled na interpretacijo in nadzor modela. To je obetavna meja in pričakovanje njegovega nadaljnjega razvoja je otipljivo.
Za globlje raziskovanje s praktičnimi primeri lahko obiščete njihovo namensko spletno mesto: AI-Transparency.org.
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.