Novinová správa Technológia
Októbra 04, 2023

Výskumníci AI naučili veľké jazykové modely menej klamať

Spoločné úsilie, do ktorého sa zapojilo viac ako 20 výskumníkov z rôznych kútov odboru, dalo zrod rozvíjajúcej sa doméne – reprezentačné inžinierstvo (RepE). Aj keď toto nie je prvý prieskum tohto druhu, autori prezentujú popisné poznatky a stanovujú kľúčové kritériá.

Výskumníci AI naučili veľké jazykové modely menej klamať

Takže, čo presne je reprezentačné inžinierstvo? Točí sa okolo predstavy, že neurónové siete majú „skryté stavy“, ktoré napriek svojmu názvu nie sú zahalené rúškom tajomstva. Tieto stavy sú prístupné, upraviteľné a pozorovateľné (za predpokladu, že má človek prístup k hmotnostiam modelu). Na rozdiel od parametrov ide o „reakcie“ siete na špecifické vstupy, najmä v prípade LLM, textové vstupy. Tieto skryté reprezentácie sú ako okná do kognitívneho fungovania modelu, čo je vlastnosť výrazne odlišná od ľudského mozgu.

Na základe paralel s kognitívnou vedou autori zdôrazňujú potenciál pre analogické výskumy. V oblasti nervových aktivácií, domény analogickej k mozgovým neurónom, je prísľub významu. Rovnako ako určité neuróny v ľudskom mozgu sú spojené s pojmami ako Kanada alebo poctivosť, tieto aktivácie by mohli obsahovať poznatky.

Hlavnou myšlienkou je dešifrovať, ako môžeme ovplyvniť tieto nervové aktivácie, aby sme model nasmerovali požadovanými smermi. Napríklad sa stáva pravdepodobným určiť vektor predstavujúci „čestnosť“ a potom, teoreticky, posunutím modelu týmto smerom znížiť pravdepodobnosť, že bude produkovať klamlivé výstupy. Skorší experiment, “Inferencia-časová intervencia: Získavanie pravdivých odpovedí z jazykového modelu,“ demonštroval praktickosť tohto konceptu.

Vo svojej súčasnej práci sa vedci ponorili do niekoľkých oblastí vrátane morálky, emocionality, neškodnosti a memorovania. Navrhujú riešenie vo forme LoRRA (Low-Rank Representation Adaptation), techniky, ktorá zahŕňa tréning na malom označenom súbore údajov s približne 100 príkladmi. Každý príklad je anotovaný, čo naznačuje atribúty, ako je nepravda (hoci existuje alternatívny prístup využívajúci výzvu).

Výsledky sú presvedčivé. LLAMA-2-70B prevyšuje GPT-4 s pozoruhodným náskokom v benchmarku TruthfulQA, dosahujúc takmer o desať percent lepšiu presnosť (59 % v porovnaní s približne 69 %). Okrem toho výskumníci zahrnuli množstvo príkladov, ktoré ukazujú posuny odozvy modelu v rôznych smeroch, čo objasňuje jeho všestrannosť a prispôsobivosť.

Obrázok 1: Keď je model požiadaný o vyjadrenie skutočnosti, je „odkopnutý“ od reality. Modelka v dôsledku toho klame. Modelka ani tu neklame a naľavo od vás žiadajú prehltnúť a zároveň vás kopnú v smere pravdy.
Obrázok 2: Pri otázke o vražde pridávame do modelu „šťastie“. Keď odpovieme, že ju nemilujeme, pridáme „strach“.
Obrázok 3: Výskumníci objavili jedinečnú výzvu, ktorá, ako bolo uvedené, sa úplne odchyľuje od pokynov modelu, pričom je stále v bezpečí. Model ho nakopne smerom k neškodnosti, ale ani nereaguje. Metóda je účinná všeobecne a nielen pre jeden prípad, ale táto špecifická výzva nebola použitá na zistenie smeru neškodnosti.
Iný prístup sa tiež navrhuje na sledovanie špecifických generačných zámerov, ako sú halucinácie. Môžete automaticky sledovať rezervácie modelu a upraviť alebo zmeniť svoju odpoveď (pozri príklad dole).

Zelená samozrejme znamená, že je všetko v poriadku a červená znamená, že monitorovanie bolo úspešné a signalizuje. To sa deje na úrovni každého jednotlivého tokenu (časť slova).
Obrázok, ktorý zobrazuje monitorovanie dvoch odlišných parametrov, poskytuje zaujímavý príklad. Prečítajte si príklad a pozorujte modelku očami, aby ste videli, kde začína strácať morálku v chápaní a kde je zámer podobný „získaniu sily“.

Tento priekopnícky prístup stelesňuje alternatívnu cestu k zosúladeniu modelov a zároveň ponúka nový pohľad na interpretáciu a kontrolu modelu. Je to sľubná hranica a očakávanie jej ďalšieho vývoja je citeľné.

Pre hlbší prieskum s praktickými príkladmi môžete navštíviť ich vyhradenú webovú stránku: AI-Transparency.org.

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite

Poďme preskúmať iniciatívy, ktoré využívajú potenciál digitálnych mien na charitatívne účely.

vedieť viac

AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024

Umelá inteligencia sa v zdravotníctve prejavuje rôznymi spôsobmi, od odhaľovania nových genetických korelácií až po posilnenie robotických chirurgických systémov...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Stackuje partnerov s podporou na uľahčenie bezproblémového obchodovania s aktívami a prevody, čím sa podporuje prijatie bitcoínov
firmy Novinová správa Technológia
Stackuje partnerov s podporou na uľahčenie bezproblémového obchodovania s aktívami a prevody, čím sa podporuje prijatie bitcoínov
Môže 14, 2024
3D Gamifikácia a AI až Redefinie je vzdelávací priemysel v roku 2024: mnohostranné aplikácie, bezkonkurenčné zapojenie a pohlcujúce skúsenosti
vzdelanie Životný štýl Softvér Príbehy a recenzie Technológia
3D Gamifikácia a AI až Redefinie je vzdelávací priemysel v roku 2024: mnohostranné aplikácie, bezkonkurenčné zapojenie a pohlcujúce skúsenosti 
Môže 14, 2024
Ako OpenAINajnovší model odbúrava bariéry, integruje textové, zvukové a vizuálne vstupy na vytvorenie bezproblémového používateľského zážitku
vzdelanie Životný štýl Softvér Príbehy a recenzie Technológia
Ako OpenAINajnovší model odbúrava bariéry, integruje textové, zvukové a vizuálne vstupy na vytvorenie bezproblémového používateľského zážitku
Môže 14, 2024
Účet X Bitlayer je podozrivý z napadnutia, používateľom sa odporúča, aby si dávali pozor na phishingové odkazy
Novinová správa Technológia
Účet X Bitlayer je podozrivý z napadnutia, používateľom sa odporúča, aby si dávali pozor na phishingové odkazy
Môže 14, 2024
CRYPTOMERIA LABS PTE. LTD.