AI-teadlased on õpetanud suuri keelemudeleid vähem valetama
Rohkem kui 20 teadlast valdkonna erinevatest nurkadest koosnev koostöö on loonud areneva valdkonna – esindustehnika (RepE). Kuigi see pole esimene omataoline uurimine, esitavad autorid nii kirjeldavaid teadmisi kui ka määravad olulised võrdlusalused.
Niisiis, mis täpselt on esindustehnika? See keerleb arusaama ümber, et närvivõrkudel on "varjatud olekud", mis hoolimata nende nimest ei ole saladuses. Need olekud on juurdepääsetavad, muudetavad ja jälgitavad (eeldusel, et on juurdepääs mudeli kaaludele). Erinevalt parameetritest on need võrgu "reaktsioonid" konkreetsetele sisenditele, eriti kui LLM-id, tekstisisendeid. Need peidetud esitused on nagu aknad mudeli kognitiivsesse töösse, mis erineb selgelt inimese ajust.
Tuues paralleele kognitiivteadusega, toovad autorid esile analoogsete uurimiste potentsiaali. Neuraalsete aktivatsioonide valdkonnas, aju neuronitega analoogilises domeenis, on tähenduse lubadus. Nii nagu teatud neuronid inimese ajus on seotud selliste mõistetega nagu Kanada või ausus, võivad need aktiveerimised sisaldada teadmisi.
Keskne idee on siin dešifreerida, kuidas saaksime neid närviaktivatsioone mõjutada, et juhtida mudelit soovitud suundadesse. Näiteks muutub usutavaks määrata "ausust" esindav vektor ja seejärel teoreetiliselt mudelit selles suunas nihutades vähendada tõenäosust, et see annab petlikke väljundeid. Varasem eksperiment "Järeldus-ajaline sekkumine: tõeste vastuste leidmine keelemudelist”, demonstreeris selle kontseptsiooni praktilisust.
Oma praeguses töös uurivad teadlased mitmeid valdkondi, sealhulgas moraali, emotsionaalsust, kahjutust ja meeldejätmist. Nad pakuvad välja lahenduse LoRRA (madalatasemelise esituse kohandamise) vormis – tehnika, mis hõlmab umbes 100 näitest koosneva väikese märgistatud andmekogumi koolitust. Igale näitele on lisatud märkused, mis näitavad selliseid atribuute nagu vale (kuigi on olemas alternatiivne lähenemine, mis kasutab viipa).
Tulemused on veenvad. LLAMA-2-70B ületab GPT-4 Märkimisväärse marginaaliga TruthfulQA etalonil, saavutades peaaegu kümme protsenti parema täpsuse (59% võrreldes ligikaudu 69%). Lisaks on teadlased lisanud arvukalt näiteid, mis näitavad mudeli reageerimisnihkeid erinevates suundades, valgustades selle mitmekülgsust ja kohanemisvõimet.
See teedrajav lähenemisviis hõlmab alternatiivset teed mudelite joondamiseks, pakkudes samal ajal uudset perspektiivi mudeli tõlgendamise ja juhtimise kohta. See on paljutõotav piir ja selle jätkuva arengu ootus on käegakatsutav.
Praktiliste näidetega põhjalikumaks uurimiseks võite külastada nende spetsiaalset veebisaiti: AI-Transparency.org.
Kaebused
Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.
Umbes Autor
Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.
Veel artikleidDamir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.