Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
A terület legkülönbözőbb szegleteiből érkező több mint 20 kutató részvételével létrejött együttműködés egy virágzó területet hozott létre – reprezentációs mérnöki (RepE). Bár nem ez az első ilyen jellegű feltárás, a szerzők leíró betekintést és kulcsfontosságú viszonyítási pontokat állítanak fel.
Tehát mi is pontosan az ábrázolástechnika? Azon a felfogáson forog, hogy a neurális hálózatok „rejtett állapotokkal” rendelkeznek, amelyeket nevük ellenére nem övez a titok. Ezek az állapotok hozzáférhetőek, módosíthatók és megfigyelhetők (feltéve, hogy valaki hozzáfér a modell súlyaihoz). A paraméterekkel ellentétben ezek a hálózat „reakciói” bizonyos bemenetekre, különösen a LLM-ek, szöveges bevitelek. Ezek a rejtett ábrázolások olyanok, mint az ablakok a modell kognitív működésébe, ami határozottan különbözik az emberi agytól.
A szerzők a kognitív tudományokkal párhuzamot vonva kiemelik az analóg kutatások lehetőségét. Az idegi aktiválások birodalmában, az agyi neuronokkal analóg tartományban rejlik a jelentés ígérete. Ahogy az emberi agy bizonyos neuronjai olyan fogalmakhoz kapcsolódnak, mint a Kanada vagy az őszinteség, ezek az aktiválások betekintést rejthetnek.
A központi ötlet itt az, hogy megfejtsük, hogyan tudjuk befolyásolni ezeket a neurális aktiválásokat, hogy a modellt a kívánt irányba tereljük. Például kézenfekvővé válik az „őszinteséget” reprezentáló vektor pontos meghatározása, majd elméletileg a modell ebbe az irányba való lökésével csökkenthető annak a valószínűsége, hogy megtévesztő kimeneteket produkál. Egy korábbi kísérlet:Következtetési időintervenció: Igaz válaszok előhívása nyelvi modellből”, mutatta be ennek a koncepciónak a praktikusságát.
Jelenlegi munkájuk során a kutatók több területtel foglalkoznak, beleértve az erkölcsöt, az érzelmeket, az ártalmatlanságot és a memorizálást. Megoldást javasolnak a LoRRA (Low-Rank Representation Adaptation) formájában, egy olyan technikában, amely egy körülbelül 100 példából álló kis, címkézett adatkészleten való képzést foglalja magában. Minden példa megjegyzésekkel van ellátva, amelyek olyan attribútumokat jeleznek, mint a hamisság (bár létezik egy promptot használó alternatív megközelítés).
Az eredmények meggyőzőek. LLAMA-2-70B felülmúlja GPT-4 figyelemre méltó különbséggel a TruthfulQA benchmarkhoz képest, közel tíz százalékkal jobb pontosságot érve el (59% a körülbelül 69%-hoz képest). Ezenkívül a kutatók számos példát beépítettek, amelyek bemutatják a modell válaszeltolódásait különböző irányokba, megvilágítva annak sokoldalúságát és alkalmazkodóképességét.
Ez az úttörő megközelítés egy alternatív utat testesít meg a modell-illesztés felé, ugyanakkor újszerű perspektívát kínál a modell értelmezésére és ellenőrzésére. Ígéretes határvonal, és érezhető a várakozás a folyamatos fejlődésére.
A gyakorlati példákkal való mélyebb feltáráshoz látogassa meg erre a célra szolgáló webhelyüket: AI-Transparency.org.
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.