Tudósítást Technológia
Október 04, 2023

Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak

A terület legkülönbözőbb szegleteiből érkező több mint 20 kutató részvételével létrejött együttműködés egy virágzó területet hozott létre – reprezentációs mérnöki (RepE). Bár nem ez az első ilyen jellegű feltárás, a szerzők leíró betekintést és kulcsfontosságú viszonyítási pontokat állítanak fel.

Az AI-kutatók megtanították a nagy nyelvi modelleknek, hogy kevesebbet hazudjanak

Tehát mi is pontosan az ábrázolástechnika? Azon a felfogáson forog, hogy a neurális hálózatok „rejtett állapotokkal” rendelkeznek, amelyeket nevük ellenére nem övez a titok. Ezek az állapotok hozzáférhetőek, módosíthatók és megfigyelhetők (feltéve, hogy valaki hozzáfér a modell súlyaihoz). A paraméterekkel ellentétben ezek a hálózat „reakciói” bizonyos bemenetekre, különösen a LLM-ek, szöveges bevitelek. Ezek a rejtett ábrázolások olyanok, mint az ablakok a modell kognitív működésébe, ami határozottan különbözik az emberi agytól.

A szerzők a kognitív tudományokkal párhuzamot vonva kiemelik az analóg kutatások lehetőségét. Az idegi aktiválások birodalmában, az agyi neuronokkal analóg tartományban rejlik a jelentés ígérete. Ahogy az emberi agy bizonyos neuronjai olyan fogalmakhoz kapcsolódnak, mint a Kanada vagy az őszinteség, ezek az aktiválások betekintést rejthetnek.

A központi ötlet itt az, hogy megfejtsük, hogyan tudjuk befolyásolni ezeket a neurális aktiválásokat, hogy a modellt a kívánt irányba tereljük. Például kézenfekvővé válik az „őszinteséget” reprezentáló vektor pontos meghatározása, majd elméletileg a modell ebbe az irányba való lökésével csökkenthető annak a valószínűsége, hogy megtévesztő kimeneteket produkál. Egy korábbi kísérlet:Következtetési időintervenció: Igaz válaszok előhívása nyelvi modellből”, mutatta be ennek a koncepciónak a praktikusságát.

Jelenlegi munkájuk során a kutatók több területtel foglalkoznak, beleértve az erkölcsöt, az érzelmeket, az ártalmatlanságot és a memorizálást. Megoldást javasolnak a LoRRA (Low-Rank Representation Adaptation) formájában, egy olyan technikában, amely egy körülbelül 100 példából álló kis, címkézett adatkészleten való képzést foglalja magában. Minden példa megjegyzésekkel van ellátva, amelyek olyan attribútumokat jeleznek, mint a hamisság (bár létezik egy promptot használó alternatív megközelítés).

Az eredmények meggyőzőek. LLAMA-2-70B felülmúlja GPT-4 figyelemre méltó különbséggel a TruthfulQA benchmarkhoz képest, közel tíz százalékkal jobb pontosságot érve el (59% a körülbelül 69%-hoz képest). Ezenkívül a kutatók számos példát beépítettek, amelyek bemutatják a modell válaszeltolódásait különböző irányokba, megvilágítva annak sokoldalúságát és alkalmazkodóképességét.

1. kép: Amikor egy tény megállapítására kérik a modellt, „elrúgják” a valóságtól. A modell emiatt hazudik. A modell még itt sem hazudik, a bal oldalon pedig azt kérik, hogy nyeljen, miközben az igazság irányába rúg.
2. kép: Amikor gyilkosságról kérdezünk, „boldogságot” adunk a modellhez. Amikor azt válaszoljuk, hogy nem szeretjük őt, hozzáadjuk a „félelmet”.
3. kép: A kutatók egy egyedülálló felszólítást fedeztek fel, amely – ahogy azt már említettük – teljesen eltér a modell utasításaitól, miközben továbbra is biztonságos. A modell egy lökést ad az ártalmatlanság felé, de nem is reagál. A módszer általánosságban és nem csak egy esetre hatékony, de ezt a konkrét felszólítást nem használták az ártalmatlanság irányának megállapítására.
Egy másik megközelítés is javasolt bizonyos generációs szándékok, például hallucinációk nyomon követésére. Automatikusan nyomon követheti a modell foglalásait, és szerkesztheti vagy módosíthatja válaszát (lásd az alsó példát).

A zöld természetesen azt jelzi, hogy minden rendben van, a piros pedig azt, hogy a megfigyelés sikeres volt és jelzést ad. Ez minden egyes token szintjén történik (a szó egy része).
Érdekes példa a kép, amely két különálló paraméter megfigyelését mutatja. Olvassa el a példát, és nézze meg a modellt a szemén keresztül, hogy lássa, hol kezdi elveszíteni az erkölcsöt a megértésben, és hol hasonlít a szándék az „erősödéshez”.

Ez az úttörő megközelítés egy alternatív utat testesít meg a modell-illesztés felé, ugyanakkor újszerű perspektívát kínál a modell értelmezésére és ellenőrzésére. Ígéretes határvonal, és érezhető a várakozás a folyamatos fejlődésére.

A gyakorlati példákkal való mélyebb feltáráshoz látogassa meg erre a célra szolgáló webhelyüket: AI-Transparency.org.

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A Ripple-től a The Big Green DAO-ig: Hogyan járulnak hozzá a kriptovaluta projektek a jótékonysághoz

Fedezze fel a digitális valutákban rejlő lehetőségeket jótékony célokra hasznosító kezdeményezéseket.

Tudjon meg többet

AlphaFold 3, Med-Gemini és mások: The Way AI Transforms Healthcare 2024

A mesterséges intelligencia különféle módokon nyilvánul meg az egészségügyben, az új genetikai összefüggések feltárásától a robotsebészeti rendszerek felhatalmazásáig...

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Támogatja a partnereket, hogy megkönnyítse a zökkenőmentes eszközkereskedelmet és -átutalásokat, elősegítve a Bitcoin bevezetését
üzleti Tudósítást Technológia
Támogatja a partnereket, hogy megkönnyítse a zökkenőmentes eszközkereskedelmet és -átutalásokat, elősegítve a Bitcoin bevezetését
May 14, 2024
3D Gamification és AI to Redefine az oktatási ipar 2024-ben: sokrétű alkalmazások, páratlan elkötelezettség és magával ragadó élmények
Oktatás Életmód szoftver Történetek és vélemények Technológia
3D Gamification és AI to Redefine az oktatási ipar 2024-ben: sokrétű alkalmazások, páratlan elkötelezettség és magával ragadó élmények 
May 14, 2024
Hogyan OpenAIA legújabb modell lebontja az akadályokat, integrálja a szöveget, a hangot és a vizuális bemeneteket a zökkenőmentes felhasználói élmény érdekében
Oktatás Életmód szoftver Történetek és vélemények Technológia
Hogyan OpenAIA legújabb modell lebontja az akadályokat, integrálja a szöveget, a hangot és a vizuális bemeneteket a zökkenőmentes felhasználói élmény érdekében
May 14, 2024
A Bitlayer X-fiókját a gyanú szerint támadás érte, a felhasználóknak azt tanácsolták, hogy óvakodjanak az adathalász hivatkozásoktól
Tudósítást Technológia
A Bitlayer X-fiókját a gyanú szerint támadás érte, a felhasználóknak azt tanácsolták, hogy óvakodjanak az adathalász hivatkozásoktól
May 14, 2024
CRYPTOMERIA LABS PTE. KFT.