Tudósítást Technológia
Október 04, 2023

Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak

A terület legkülönbözőbb szegleteiből érkező több mint 20 kutató részvételével létrejött együttműködés egy virágzó területet hozott létre – reprezentációs mérnöki (RepE). Bár nem ez az első ilyen jellegű feltárás, a szerzők leíró betekintést és kulcsfontosságú viszonyítási pontokat állítanak fel.

Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak

Tehát mi is pontosan az ábrázolástechnika? Azon a felfogáson forog, hogy a neurális hálózatok „rejtett állapotokkal” rendelkeznek, amelyeket nevük ellenére nem övez a titok. Ezek az állapotok hozzáférhetőek, módosíthatók és megfigyelhetők (feltéve, hogy valaki hozzáfér a modell súlyaihoz). A paraméterekkel ellentétben ezek a hálózat „reakciói” bizonyos bemenetekre, különösen a LLM-ek, szöveges bevitelek. Ezek a rejtett ábrázolások olyanok, mint az ablakok a modell kognitív működésébe, ami határozottan különbözik az emberi agytól.

A szerzők a kognitív tudományokkal párhuzamot vonva kiemelik az analóg kutatások lehetőségét. Az idegi aktiválások birodalmában, az agyi neuronokkal analóg tartományban rejlik a jelentés ígérete. Ahogy az emberi agy bizonyos neuronjai olyan fogalmakhoz kapcsolódnak, mint a Kanada vagy az őszinteség, ezek az aktiválások betekintést rejthetnek.

A központi ötlet itt az, hogy megfejtsük, hogyan tudjuk befolyásolni ezeket a neurális aktiválásokat, hogy a modellt a kívánt irányba tereljük. Például kézenfekvővé válik az „őszinteséget” reprezentáló vektor pontos meghatározása, majd elméletileg a modell ebbe az irányba való lökésével csökkenthető annak a valószínűsége, hogy megtévesztő kimeneteket produkál. Egy korábbi kísérlet:Következtetési időintervenció: Igaz válaszok előhívása nyelvi modellből”, mutatta be ennek a koncepciónak a praktikusságát.

Jelenlegi munkájuk során a kutatók több területtel foglalkoznak, beleértve az erkölcsöt, az érzelmeket, az ártalmatlanságot és a memorizálást. Megoldást javasolnak a LoRRA (Low-Rank Representation Adaptation) formájában, egy olyan technikában, amely egy körülbelül 100 példából álló kis, címkézett adatkészleten való képzést foglalja magában. Minden példa megjegyzésekkel van ellátva, amelyek olyan attribútumokat jeleznek, mint a hamisság (bár létezik egy promptot használó alternatív megközelítés).

Az eredmények meggyőzőek. LLAMA-2-70B felülmúlja GPT-4 figyelemre méltó különbséggel a TruthfulQA benchmarkhoz képest, közel tíz százalékkal jobb pontosságot érve el (59% a körülbelül 69%-hoz képest). Ezenkívül a kutatók számos példát beépítettek, amelyek bemutatják a modell válaszeltolódásait különböző irányokba, megvilágítva annak sokoldalúságát és alkalmazkodóképességét.

Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
1. kép: Amikor egy tény megállapítására kérik a modellt, „elrúgják” a valóságtól. A modell emiatt hazudik. A modell még itt sem hazudik, a bal oldalon pedig azt kérik, hogy nyeljen, miközben az igazság irányába rúg.
Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
2. kép: Amikor gyilkosságról kérdezünk, „boldogságot” adunk a modellhez. Amikor azt válaszoljuk, hogy nem szeretjük őt, hozzáadjuk a „félelmet”.
Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
3. kép: A kutatók egy egyedülálló felszólítást fedeztek fel, amely – ahogy azt már említettük – teljesen eltér a modell utasításaitól, miközben továbbra is biztonságos. A modell egy lökést ad az ártalmatlanság felé, de nem is reagál. A módszer általánosságban és nem csak egy esetre hatékony, de ezt a konkrét felszólítást nem használták az ártalmatlanság irányának megállapítására.
Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
Egy másik megközelítés is javasolt bizonyos generációs szándékok, például hallucinációk nyomon követésére. Automatikusan nyomon követheti a modell foglalásait, és szerkesztheti vagy módosíthatja válaszát (lásd az alsó példát).

A zöld természetesen azt jelzi, hogy minden rendben van, a piros pedig azt, hogy a megfigyelés sikeres volt és jelzést ad. Ez minden egyes token szintjén történik (a szó egy része).
Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
Érdekes példa a kép, amely két különálló paraméter megfigyelését mutatja. Olvassa el a példát, és nézze meg a modellt a szemén keresztül, hogy lássa, hol kezdi elveszíteni az erkölcsöt a megértésben, és hol hasonlít a szándék az „erősödéshez”.

Ez az úttörő megközelítés egy alternatív utat testesít meg a modell-illesztés felé, ugyanakkor újszerű perspektívát kínál a modell értelmezésére és ellenőrzésére. Ígéretes határvonal, és érezhető a várakozás a folyamatos fejlődésére.

A gyakorlati példákkal való mélyebb feltáráshoz látogassa meg erre a célra szolgáló webhelyüket: AI-Transparency.org.

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A Ripple-től a The Big Green DAO-ig: Hogyan járulnak hozzá a kriptovaluta projektek a jótékonysághoz

Fedezze fel a digitális valutákban rejlő lehetőségeket jótékony célokra hasznosító kezdeményezéseket.

Tudjon meg többet

AlphaFold 3, Med-Gemini és mások: The Way AI Transforms Healthcare 2024

A mesterséges intelligencia különféle módokon nyilvánul meg az egészségügyben, az új genetikai összefüggések feltárásától a robotsebészeti rendszerek felhatalmazásáig...

Tudjon meg többet
Olvasson többet
Tovább
A Jövő leleplezése GameFi: Hat újító dominálni Web3 Játék táj 2025-ben
Életmód Tudósítást Technológia
A Jövő leleplezése GameFi: Hat újító dominálni Web3 Játék táj 2025-ben
Január 13, 2025
Bitfinex: A kriptográfiai piac óvatossága nő, de a Bitcoin ellenálló marad
piacok Tudósítást Technológia
Bitfinex: A kriptográfiai piac óvatossága nő, de a Bitcoin ellenálló marad
Január 13, 2025
A közelmúltbeli visszalépések és a piaci volatilitás ellenére a szürkeárnyalatos továbbra is magabiztos a Crypto hosszú távú emelkedő kilátásaiban
Vélemény üzleti piacok Technológia
A közelmúltbeli visszalépések és a piaci volatilitás ellenére a szürkeárnyalatos továbbra is magabiztos a Crypto hosszú távú emelkedő kilátásaiban
Január 13, 2025
Az UniSat felfüggeszti a CAT20 piaci szolgáltatásait, mivel a CAT protokoll frissítésen megy keresztül
Tudósítást Technológia
Az UniSat felfüggeszti a CAT20 piaci szolgáltatásait, mivel a CAT protokoll frissítésen megy keresztül
Január 13, 2025
CRYPTOMERIA LABS PTE. KFT.