Výskumníci AI naučili veľké jazykové modely menej klamať


Spoločné úsilie, do ktorého sa zapojilo viac ako 20 výskumníkov z rôznych kútov odboru, dalo zrod rozvíjajúcej sa doméne – reprezentačné inžinierstvo (RepE). Aj keď toto nie je prvý prieskum tohto druhu, autori prezentujú popisné poznatky a stanovujú kľúčové kritériá.

Takže, čo presne je reprezentačné inžinierstvo? Točí sa okolo predstavy, že neurónové siete majú „skryté stavy“, ktoré napriek svojmu názvu nie sú zahalené rúškom tajomstva. Tieto stavy sú prístupné, upraviteľné a pozorovateľné (za predpokladu, že má človek prístup k hmotnostiam modelu). Na rozdiel od parametrov ide o „reakcie“ siete na špecifické vstupy, najmä v prípade LLM, textové vstupy. Tieto skryté reprezentácie sú ako okná do kognitívneho fungovania modelu, čo je vlastnosť výrazne odlišná od ľudského mozgu.
Na základe paralel s kognitívnou vedou autori zdôrazňujú potenciál pre analogické výskumy. V oblasti nervových aktivácií, domény analogickej k mozgovým neurónom, je prísľub významu. Rovnako ako určité neuróny v ľudskom mozgu sú spojené s pojmami ako Kanada alebo poctivosť, tieto aktivácie by mohli obsahovať poznatky.
Hlavnou myšlienkou je dešifrovať, ako môžeme ovplyvniť tieto nervové aktivácie, aby sme model nasmerovali požadovanými smermi. Napríklad sa stáva pravdepodobným určiť vektor predstavujúci „čestnosť“ a potom, teoreticky, posunutím modelu týmto smerom znížiť pravdepodobnosť, že bude produkovať klamlivé výstupy. Skorší experiment, “Inferencia-časová intervencia: Získavanie pravdivých odpovedí z jazykového modelu,“ demonštroval praktickosť tohto konceptu.
Vo svojej súčasnej práci sa vedci ponorili do niekoľkých oblastí vrátane morálky, emocionality, neškodnosti a memorovania. Navrhujú riešenie vo forme LoRRA (Low-Rank Representation Adaptation), techniky, ktorá zahŕňa tréning na malom označenom súbore údajov s približne 100 príkladmi. Každý príklad je anotovaný, čo naznačuje atribúty, ako je nepravda (hoci existuje alternatívny prístup využívajúci výzvu).
Výsledky sú presvedčivé. LLAMA-2-70B prevyšuje GPT-4 s pozoruhodným náskokom v benchmarku TruthfulQA, dosahujúc takmer o desať percent lepšiu presnosť (59 % v porovnaní s približne 69 %). Okrem toho výskumníci zahrnuli množstvo príkladov, ktoré ukazujú posuny odozvy modelu v rôznych smeroch, čo objasňuje jeho všestrannosť a prispôsobivosť.




Zelená samozrejme znamená, že je všetko v poriadku a červená znamená, že monitorovanie bolo úspešné a signalizuje. To sa deje na úrovni každého jednotlivého tokenu (časť slova).

Tento priekopnícky prístup stelesňuje alternatívnu cestu k zosúladeniu modelov a zároveň ponúka nový pohľad na interpretáciu a kontrolu modelu. Je to sľubná hranica a očakávanie jej ďalšieho vývoja je citeľné.
Pre hlbší prieskum s praktickými príkladmi môžete navštíviť ich vyhradenú webovú stránku: AI-Transparency.org.
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie články

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.