Novinová správa Technológia
Októbra 04, 2023

Výskumníci AI naučili veľké jazykové modely menej klamať

Spoločné úsilie, do ktorého sa zapojilo viac ako 20 výskumníkov z rôznych kútov odboru, dalo zrod rozvíjajúcej sa doméne – reprezentačné inžinierstvo (RepE). Aj keď toto nie je prvý prieskum tohto druhu, autori prezentujú popisné poznatky a stanovujú kľúčové kritériá.

Výskumníci AI naučili veľké jazykové modely menej klamať

Takže, čo presne je reprezentačné inžinierstvo? Točí sa okolo predstavy, že neurónové siete majú „skryté stavy“, ktoré napriek svojmu názvu nie sú zahalené rúškom tajomstva. Tieto stavy sú prístupné, upraviteľné a pozorovateľné (za predpokladu, že má človek prístup k hmotnostiam modelu). Na rozdiel od parametrov ide o „reakcie“ siete na špecifické vstupy, najmä v prípade LLM, textové vstupy. Tieto skryté reprezentácie sú ako okná do kognitívneho fungovania modelu, čo je vlastnosť výrazne odlišná od ľudského mozgu.

Na základe paralel s kognitívnou vedou autori zdôrazňujú potenciál pre analogické výskumy. V oblasti nervových aktivácií, domény analogickej k mozgovým neurónom, je prísľub významu. Rovnako ako určité neuróny v ľudskom mozgu sú spojené s pojmami ako Kanada alebo poctivosť, tieto aktivácie by mohli obsahovať poznatky.

Hlavnou myšlienkou je dešifrovať, ako môžeme ovplyvniť tieto nervové aktivácie, aby sme model nasmerovali požadovanými smermi. Napríklad sa stáva pravdepodobným určiť vektor predstavujúci „čestnosť“ a potom, teoreticky, posunutím modelu týmto smerom znížiť pravdepodobnosť, že bude produkovať klamlivé výstupy. Skorší experiment, “Inferencia-časová intervencia: Získavanie pravdivých odpovedí z jazykového modelu,“ demonštroval praktickosť tohto konceptu.

Vo svojej súčasnej práci sa vedci ponorili do niekoľkých oblastí vrátane morálky, emocionality, neškodnosti a memorovania. Navrhujú riešenie vo forme LoRRA (Low-Rank Representation Adaptation), techniky, ktorá zahŕňa tréning na malom označenom súbore údajov s približne 100 príkladmi. Každý príklad je anotovaný, čo naznačuje atribúty, ako je nepravda (hoci existuje alternatívny prístup využívajúci výzvu).

Výsledky sú presvedčivé. LLAMA-2-70B prevyšuje GPT-4 s pozoruhodným náskokom v benchmarku TruthfulQA, dosahujúc takmer o desať percent lepšiu presnosť (59 % v porovnaní s približne 69 %). Okrem toho výskumníci zahrnuli množstvo príkladov, ktoré ukazujú posuny odozvy modelu v rôznych smeroch, čo objasňuje jeho všestrannosť a prispôsobivosť.

Výskumníci AI naučili veľké jazykové modely menej klamať
Obrázok 1: Keď je model požiadaný o vyjadrenie skutočnosti, je „odkopnutý“ od reality. Modelka v dôsledku toho klame. Modelka ani tu neklame a naľavo od vás žiadajú prehltnúť a zároveň vás kopnú v smere pravdy.
Výskumníci AI naučili veľké jazykové modely menej klamať
Obrázok 2: Pri otázke o vražde pridávame do modelu „šťastie“. Keď odpovieme, že ju nemilujeme, pridáme „strach“.
Výskumníci AI naučili veľké jazykové modely menej klamať
Obrázok 3: Výskumníci objavili jedinečnú výzvu, ktorá, ako bolo uvedené, sa úplne odchyľuje od pokynov modelu, pričom je stále v bezpečí. Model ho nakopne smerom k neškodnosti, ale ani nereaguje. Metóda je účinná všeobecne a nielen pre jeden prípad, ale táto špecifická výzva nebola použitá na zistenie smeru neškodnosti.
Výskumníci AI naučili veľké jazykové modely menej klamať
Iný prístup sa tiež navrhuje na sledovanie špecifických generačných zámerov, ako sú halucinácie. Môžete automaticky sledovať rezervácie modelu a upraviť alebo zmeniť svoju odpoveď (pozri príklad dole).

Zelená samozrejme znamená, že je všetko v poriadku a červená znamená, že monitorovanie bolo úspešné a signalizuje. To sa deje na úrovni každého jednotlivého tokenu (časť slova).
Výskumníci AI naučili veľké jazykové modely menej klamať
Obrázok, ktorý ukazuje monitorovanie dvoch odlišných parametrov, poskytuje zaujímavý príklad. Prečítajte si príklad a pozorujte modelku očami, aby ste videli, kde začína strácať morálku v chápaní a kde je zámer podobný „získaniu sily“.

Tento priekopnícky prístup stelesňuje alternatívnu cestu k zosúladeniu modelov a zároveň ponúka nový pohľad na interpretáciu a kontrolu modelu. Je to sľubná hranica a očakávanie jej ďalšieho vývoja je citeľné.

Pre hlbší prieskum s praktickými príkladmi môžete navštíviť ich vyhradenú webovú stránku: AI-Transparency.org.

Disclaimer

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Pokoj pred búrkou Solana: Čo teraz hovoria grafy, veľryby a signály na reťazci

Spoločnosť Solana preukázala silný výkon, ktorý bol poháňaný rastúcim prijatím, inštitucionálnym záujmom a kľúčovými partnerstvami, pričom zároveň čelí potenciálnym...

vedieť viac

Kryptomeny v apríli 2025: Kľúčové trendy, zmeny a čo bude ďalej

V apríli 2025 sa kryptopriestor zameral na posilnenie základnej infraštruktúry, pričom Ethereum sa pripravovalo na Pectru ...

vedieť viac
Čítaj viac
Čítaj viac
Google vydáva vylepšeného Deep Research Agent s novým rozhraním Interactions API pre vývojárov
Novinová správa Technológia
Google vydáva vylepšeného Deep Research Agent s novým rozhraním Interactions API pre vývojárov
Decembra 12, 2025
Silné prijatie, pevné základy – čo britské kryptomeny potrebujú ďalej, aby udržali krok s globálnym trhom 
Názor Technológia
Silné prijatie, pevné základy – čo britské kryptomeny potrebujú ďalej, aby udržali krok s globálnym trhom 
Decembra 12, 2025
Banka AMINA využíva Ripple na poskytovanie rýchlejších, lacnejších a transparentnejších globálnych transakcií v EÚ
firmy Novinová správa Technológia
Banka AMINA využíva Ripple na poskytovanie rýchlejších, lacnejších a transparentnejších globálnych transakcií v EÚ
Decembra 12, 2025
deBridge predstavuje balíčky na zjednodušenie vykonávania naprieč reťazcami a bezproblémových operácií
Novinová správa Technológia
deBridge predstavuje balíčky na zjednodušenie vykonávania naprieč reťazcami a bezproblémových operácií
Decembra 12, 2025
CRYPTOMERIA LABS PTE. LTD.