Tudósítást Technológia
October 04, 2023

Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak

A terület legkülönbözőbb szegleteiből érkező több mint 20 kutató részvételével létrejött együttműködés egy virágzó területet hozott létre – reprezentációs mérnöki (RepE). Bár nem ez az első ilyen jellegű feltárás, a szerzők leíró betekintést és kulcsfontosságú viszonyítási pontokat állítanak fel.

Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak

Tehát mi is pontosan az ábrázolástechnika? Azon a felfogáson forog, hogy a neurális hálózatok „rejtett állapotokkal” rendelkeznek, amelyeket nevük ellenére nem övez a titok. Ezek az állapotok hozzáférhetőek, módosíthatók és megfigyelhetők (feltéve, hogy valaki hozzáfér a modell súlyaihoz). A paraméterekkel ellentétben ezek a hálózat „reakciói” bizonyos bemenetekre, különösen a LLM-ek, szöveges bevitelek. Ezek a rejtett ábrázolások olyanok, mint az ablakok a modell kognitív működésébe, ami határozottan különbözik az emberi agytól.

A szerzők a kognitív tudományokkal párhuzamot vonva kiemelik az analóg kutatások lehetőségét. Az idegi aktiválások birodalmában, az agyi neuronokkal analóg tartományban rejlik a jelentés ígérete. Ahogy az emberi agy bizonyos neuronjai olyan fogalmakhoz kapcsolódnak, mint a Kanada vagy az őszinteség, ezek az aktiválások betekintést rejthetnek.

A központi ötlet itt az, hogy megfejtsük, hogyan tudjuk befolyásolni ezeket a neurális aktiválásokat, hogy a modellt a kívánt irányba tereljük. Például kézenfekvővé válik az „őszinteséget” reprezentáló vektor pontos meghatározása, majd elméletileg a modell ebbe az irányba való lökésével csökkenthető annak a valószínűsége, hogy megtévesztő kimeneteket produkál. Egy korábbi kísérlet:Következtetési időintervenció: Igaz válaszok előhívása nyelvi modellből”, mutatta be ennek a koncepciónak a praktikusságát.

Jelenlegi munkájuk során a kutatók több területtel foglalkoznak, beleértve az erkölcsöt, az érzelmeket, az ártalmatlanságot és a memorizálást. Megoldást javasolnak a LoRRA (Low-Rank Representation Adaptation) formájában, egy olyan technikában, amely egy körülbelül 100 példából álló kis, címkézett adatkészleten való képzést foglalja magában. Minden példa megjegyzésekkel van ellátva, amelyek olyan attribútumokat jeleznek, mint a hamisság (bár létezik egy promptot használó alternatív megközelítés).

Az eredmények meggyőzőek. LLAMA-2-70B felülmúlja GPT-4 figyelemre méltó különbséggel a TruthfulQA benchmarkhoz képest, közel tíz százalékkal jobb pontosságot érve el (59% a körülbelül 69%-hoz képest). Ezenkívül a kutatók számos példát beépítettek, amelyek bemutatják a modell válaszeltolódásait különböző irányokba, megvilágítva annak sokoldalúságát és alkalmazkodóképességét.

Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
1. kép: Amikor egy tény megállapítására kérik a modellt, „elrúgják” a valóságtól. A modell emiatt hazudik. A modell még itt sem hazudik, a bal oldalon pedig azt kérik, hogy nyeljen, miközben az igazság irányába rúg.
Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
2. kép: Amikor gyilkosságról kérdezünk, „boldogságot” adunk a modellhez. Amikor azt válaszoljuk, hogy nem szeretjük őt, hozzáadjuk a „félelmet”.
Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
3. kép: A kutatók egy egyedülálló felszólítást fedeztek fel, amely – ahogy azt már említettük – teljesen eltér a modell utasításaitól, miközben továbbra is biztonságos. A modell egy lökést ad az ártalmatlanság felé, de nem is reagál. A módszer általánosságban és nem csak egy esetre hatékony, de ezt a konkrét felszólítást nem használták az ártalmatlanság irányának megállapítására.
Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
Egy másik megközelítés is javasolt bizonyos generációs szándékok, például hallucinációk nyomon követésére. Automatikusan nyomon követheti a modell foglalásait, és szerkesztheti vagy módosíthatja válaszát (lásd az alsó példát).

A zöld természetesen azt jelzi, hogy minden rendben van, a piros pedig azt, hogy a megfigyelés sikeres volt és jelzést ad. Ez minden egyes token szintjén történik (a szó egy része).
Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak
Érdekes példa a kép, amely két különálló paraméter megfigyelését mutatja. Olvassa el a példát, és nézze meg a modellt a szemén keresztül, hogy lássa, hol kezdi elveszíteni az erkölcsöt a megértésben, és hol hasonlít a szándék az „erősödéshez”.

Ez az úttörő megközelítés egy alternatív utat testesít meg a modell-illesztés felé, ugyanakkor újszerű perspektívát kínál a modell értelmezésére és ellenőrzésére. Ígéretes határvonal, és érezhető a várakozás a folyamatos fejlődésére.

A gyakorlati példákkal való mélyebb feltáráshoz látogassa meg erre a célra szolgáló webhelyüket: AI-Transparency.org.

Jogi nyilatkozat

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A Solana-vihar előtti csend: Mit mondanak most a grafikonok, a bálnák és a láncon lévő jelek?

A Solana erős teljesítményt mutatott, amelyet a növekvő elfogadás, az intézményi érdeklődés és a kulcsfontosságú partnerségek vezéreltek, miközben potenciális ...

Tudjon meg többet

Kriptovaluták 2025 áprilisában: Főbb trendek, változások és mi következik?

2025 áprilisában a kriptovilág az alapvető infrastruktúra megerősítésére összpontosított, az Ethereum pedig a Pectra ...

Tudjon meg többet
További információk
Részletek
A szkenneléstől a beszédig: Hogyan működik a Google?defiEgészségügyi mesterséges intelligencia
Vélemény Tudósítást Technológia
A szkenneléstől a beszédig: Hogyan működik a Google?defiEgészségügyi mesterséges intelligencia
Január 15, 2026
A FAR Labs átállt a BNB láncra, biztosította a Binance tárcapartnerséget és elvégezte a CertiK auditot
Tudósítást Technológia
A FAR Labs átállt a BNB láncra, biztosította a Binance tárcapartnerséget és elvégezte a CertiK auditot
Január 15, 2026
Az INX készen áll a tőzsdei bevezetésre, miután az Infinex lezárta a nyilvános értékesítést és megerősödött Web3 Kereskedelmi ökoszisztéma
Tudósítást Technológia
Az INX készen áll a tőzsdei bevezetésre, miután az Infinex lezárta a nyilvános értékesítést és megerősödött Web3 Kereskedelmi ökoszisztéma
Január 15, 2026
A Gate éves díjakat oszt ki a globális partnerek tiszteletére és az ökoszisztéma-elkötelezettség erősítésére
Tudósítást Technológia
A Gate éves díjakat oszt ki a globális partnerek tiszteletére és az ökoszisztéma-elkötelezettség erősítésére
Január 15, 2026
CRYPTOMERIA LABS PTE. KFT.