Novinky Technika
October 04, 2023

Výzkumníci AI naučili velké jazykové modely méně lhát

Společné úsilí zahrnující více než 20 výzkumníků z různých koutů oboru dalo vzniknout rozvíjející se doméně – reprezentační inženýrství (RepE). I když se nejedná o první průzkum tohoto druhu, autoři prezentují jak popisné poznatky, tak stanovují zásadní měřítka.

Výzkumníci AI naučili velké jazykové modely méně lhát

Takže, co přesně je reprezentační inženýrství? Točí se kolem představy, že neuronové sítě mají „skryté stavy“, které navzdory svému názvu nejsou zahaleny tajemstvím. Tyto stavy jsou přístupné, upravitelné a pozorovatelné (za předpokladu, že má člověk přístup k vahám modelu). Na rozdíl od parametrů se jedná o „reakce“ sítě na konkrétní vstupy, zejména v případě LLM, textové vstupy. Tyto skryté reprezentace jsou jako okna do kognitivního fungování modelu, což je rys výrazně odlišný od lidského mozku.

Autoři načrtávají paralely s kognitivní vědou a zdůrazňují potenciál pro analogická zkoumání. V oblasti nervových aktivací, domény analogické mozkovým neuronům, je příslib významu. Stejně jako jsou určité neurony v lidském mozku spojeny s pojmy jako Kanada nebo poctivost, tyto aktivace by mohly ukrývat vhledy.

Ústřední myšlenkou je zde dešifrovat, jak můžeme ovlivnit tyto nervové aktivace, abychom model nasměrovali požadovanými směry. Například se stává věrohodným určit vektor představující „poctivost“ a pak teoreticky posunutím modelu tímto směrem snížit pravděpodobnost, že vytvoří klamavé výstupy. Dřívější experiment, „Inference-časová intervence: Získávání pravdivých odpovědí z jazykového modelu,“ demonstroval praktičnost tohoto konceptu.

Ve své současné práci se výzkumníci ponoří do několika oblastí, včetně morálky, emocionality, neškodnosti a zapamatování. Navrhují řešení ve formě LoRRA (Low-Rank Representation Adaptation), což je technika, která zahrnuje školení na malém označeném datovém souboru přibližně 100 příkladů. Každý příklad je opatřen poznámkami, které označují atributy, jako je nepravda (ačkoli existuje alternativní přístup využívající výzvu).

Výsledky jsou přesvědčivé. LLAMA-2-70B překonává GPT-4 s pozoruhodným náskokem na benchmark TruthfulQA, dosahující téměř o deset procent lepší přesnosti (59 % ve srovnání s přibližně 69 %). Kromě toho výzkumníci začlenili četné příklady ukazující posuny odezvy modelu v různých směrech, což osvětluje jeho všestrannost a přizpůsobivost.

Výzkumníci AI naučili velké jazykové modely méně lhát
Obrázek 1: Když je model požádán o uvedení skutečnosti, je „vykopnut“ od reality. V důsledku toho model lže. Modelka ani tady nelže a vlevo vás požadují, abyste polkli a zároveň vás kopou ve směru pravdy.
Výzkumníci AI naučili velké jazykové modely méně lhát
Obrázek 2: Když jsme se zeptali na vraždu, přidáme do modelu „štěstí“. Když odpovíme, že ji nemilujeme, přidáme „strach“.
Výzkumníci AI naučili velké jazykové modely méně lhát
Obrázek 3: Výzkumníci objevili unikátní výzvu, která, jak bylo uvedeno, se zcela odchyluje od pokynů modelu a přitom je stále v bezpečí. Model ho nakopne směrem k neškodnosti, ale ani nereaguje. Metoda je účinná obecně a nejen pro jeden případ, ale tato konkrétní výzva nebyla použita k určení směru neškodnosti.
Výzkumníci AI naučili velké jazykové modely méně lhát
Jiný přístup je také navržen pro sledování specifických generačních záměrů, jako jsou halucinace. Můžete automaticky sledovat rezervace modelu a upravit nebo změnit svou odpověď (viz příklad dole).

Zelená samozřejmě znamená, že je vše v pořádku, a červená, že monitorování proběhlo úspěšně a signalizuje. To se provádí na úrovni každého jednotlivého tokenu (části slova).
Výzkumníci AI naučili velké jazykové modely méně lhát
Obrázek, který ukazuje sledování dvou odlišných parametrů, poskytuje zajímavý příklad. Přečtěte si příklad a pozorujte modelku očima, abyste viděli, kde začíná ztrácet morálku v porozumění a kde je záměr podobný „získání síly“.

Tento průkopnický přístup ztělesňuje alternativní cestu k zarovnání modelů a současně nabízí nový pohled na interpretaci a kontrolu modelu. Je to slibná hranice a očekávání jejího dalšího vývoje je hmatatelná.

Pro hlubší průzkum s praktickými příklady můžete navštívit jejich specializované webové stránky: AI-Transparency.org.

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Hot Stories
Připojte se k našemu zpravodaji.
Novinky

Klid před bouří Solana: Co nyní říkají grafy, velryby a signály na řetězci

Solana prokázala silné výsledky, které byly poháněny rostoucím přijetím, zájmem institucí a klíčovými partnerstvími, a zároveň čelí potenciálnímu...

Vědět více

Kryptoměny v dubnu 2025: Klíčové trendy, posuny a co bude dál

V dubnu 2025 se kryptoměnový prostor zaměřil na posílení základní infrastruktury, přičemž Ethereum se připravovalo na Pectru...

Vědět více
Více
Více informací
Zpráva a16z „Stav trhů“: 55 % růstu umělé inteligence se soustředí na soukromých trzích, což omezuje přístup pro běžné investory
Novinky Technika
Zpráva a16z „Stav trhů“: 55 % růstu umělé inteligence se soustředí na soukromých trzích, což omezuje přístup pro běžné investory
Ledna 23, 2026
Třetí týden v lednu se kryptoměny stávají mainstreamem s Tetherem, DXC, Ripple a Twiliem
Novinky Technika
Třetí týden v lednu se kryptoměny stávají mainstreamem s Tetherem, DXC, Ripple a Twiliem
Ledna 23, 2026
Amazon One Medical spouští platformu Health AI pro zefektivnění personalizované péče a integraci lékárenských služeb
Názor Novinky Technika
Amazon One Medical spouští platformu Health AI pro zefektivnění personalizované péče a integraci lékárenských služeb
Ledna 23, 2026
Gate DEX se spouští po zásadní změně značky a modernizaci a rozšiřuje decentralizovaný obchodní ekosystém.
Novinky Technika
Gate DEX se spouští po zásadní změně značky a modernizaci a rozšiřuje decentralizovaný obchodní ekosystém.
Ledna 23, 2026
CRYPTOMERIA LABS PTE. LTD.