Novinky Technika
15

LLM programy: Nová cesta k jemnému ladění neurálních modelů ve složitých situacích

Stručně

Autoři navrhují alternativní cestu nazvanou LLM programy, kterou lze považovat za rozvoj kontextového učení.

Klíčem k řešení problému prostřednictvím programu LLM je schopnost rozložit řešení problému do sekvence jednodušších kroků.

Existují dvě hlavní oblasti přizpůsobení LLM: doladění (nebo dodatečné školení) předem vyškoleného základního modelu a kontextové učení. Jemné ladění vyžaduje značné výpočetní zdroje, sběr dat a infrastrukturu, aby to bylo možné, a poté hostování vyladěných modelů. Mezitím učení v kontextu zahrnuje sestavení správné výzvy s příklady řešení problému, jako je Chain-of-Thought (CoT). Existují však určité potíže, jako je omezená velikost textu, který lze odeslat do modelu, a skutečnost, že ve složitém víceprůchodovém výzvě se kroky mohou navzájem rušit a model může být něčím rozptylován. která by v tuto chvíli neměla být rozptylována. Autoři navrhují alternativní cestu tzv LLM programy, což lze považovat za rozvoj kontextového učení.

LLM programy: Nová cesta k jemnému ladění neurálních modelů ve složitých situacích
Doporučená: Průvodce Prompt Engineering Ultimate Guide 2023

LLM je zabudován do programu (v konvenčním programovací jazyk, například v Pythonu). Tento externí kód je zodpovědný za ukládání stavu a udržování modelu krok za krokem. Má to několik zásadních výhod: Programovací jazyky jsou k tomu přizpůsobeny, velikost dostupného kontextu roste a kroky se vzájemně neovlivňují. Klíčem k řešení problému prostřednictvím LLM Programu je schopnost rozložit řešení problému do sekvence jednodušších kroků. Tento přístup se liší od předchozích prací, kde model využíval externí nástroje jako jsou kalkulačky popř vykladači kódu k udržení státu. Tento přístup je dobrý, protože je možné tímto způsobem popsat komplexní a rozšiřující se úkol, což usnadňuje testování, ladění a hodnocení kvality.

Mezi jednotlivými kroky navíc nedochází k žádné interferenci, což usnadňuje práci s LLM. Nové nejsou ani systémy otázka-odpověď; existovaly dávno před LLM. Jak je nyní řešen úkol odpovídat na otázky?

Stránky jsou často aktualizovány, takže a zmrazený model není možnost; rychle zastará a nebude schopen odpovídat na otázky o nových produktech. Neustálé přeškolování modelu pro každou aktualizaci není reálná možnost: Je to drahé a časově náročné. Místo toho jsou webové stránky obvykle indexovány, vloženy do nějaké databáze a často vektorovány. Na žádost uživatele jsou staženy relevantní dokumenty a odeslány jako kontext do LLM.

V takovém paradigmatu je problém přirozeně řešen prostřednictvím programu LLM. Jako bonus to se stává možným implementovat složitější víceprůchodovou logiku, která by zcela nezapadala do kontextu.

Testováno na Datová sada StrategyQA obsahující binární klasifikační problémy, jejichž řešení zahrnuje vícecestné uvažování. Jako "Proniká sluneční světlo do nejhlubšího místa Černého moře?". Chcete-li odpovědět, musíte najít maximální hloubku (2 km) a jak hluboko světlo proniká vodou (1 km) a poté vyvodit závěr. Podívejme se na další příklad otázky: „Používal Aristoteles laptop? Tato otázka není tak přímočará a nenásleduje explicitně posloupnost uvažovacích kroků jako „Byl Aristoteles naživu, když byl vynalezen laptop? dělá. Soubor dat se zaměřuje na otázky, kde je taková sekvence implicitní. V datovém souboru je pouze 2,780 918 otázek, z nichž pouze XNUMX má odstavce s důkazy, které posilují všechny kroky uvažování. V současné práci se omezuje na tuto podmnožinu; jinak bychom se museli spoléhat na to, že se LLM některá fakta dozví během předškolení.

OPT-175B LLM ve výchozím nastavení není příliš dobrý v dodržování pokynů; nemuselo dolaďovat instrukce ani konverzační data. K vyřešení problému s odpovědí na otázky podložené důkazy je rozdělena na fázi filtrování dat a fázi hledání ve stromu.

Ve fázi filtrování, když mají vývojáři otázku, projdou všechny odstavce a vyberou ty nejrelevantnější. Například pomocí několikanásobné výzvy požádejte LLM, aby odpověděl (ano/ne), zda je daný odstavec relevantní pro položenou otázku. Testováno na 300 podskupině StrategyQA, kde každá otázka byla spojena s odstavcem, relevantním nebo ne, 50/50. OPT-175B a text-davinci-002 nemají a mnohem vyšší kvalitu než náhodná základní linie: až 56 %. Čím pokročilejší 11B Tk-Pokyn není o moc lepší s 61.6 %.

Vzhledem ke špatné kvalitě tohoto přístupu byla sestavena alternativa, která zvažuje průměrnou negativní log-pravděpodobnost (NLL) otázky v kombinaci s předchozím odstavcem textu a poté seřadí výsledky. Vyhodnoceno na datovém souboru, kde pro každou otázku bylo 100 odstavců a pouze jeden byl relevantní (takže náhodné hádání dává 1 %). Dostali jsme přesnost top-1 na 79 % a top-5 na 93 %. Pro tento výpočet obvykle potřebujete přístup k samotnému modelu, což se ne vždy provádí v API.

Následuje fáze budování výstupních řetězců. To se provádí prohledáváním stromu, kde je otázka kořenem, a na každé úrovni je mnoho odstavců s možnými důkazy použitými jako kontext pro vytvoření dalšího kroku. Každá cesta stromem je potenciální výstupní řetězec. Je nereálné vyvodit závěr o všech možných řetězcích, takže všechny dostupné řetězce jsou seřazeny a nejvýše umístěný řetězec je rozšířen. To je taková variace hledání paprskem. Proces se zastaví, když dojde k odpovědi nebo projde maximální povolený počet kroků.

Nejdůležitější detaily jsou dvě hodnotící strategie testované pro krok stromového vyhledávání. První strategie je založena na průměrné NLL celého řetězce, zatímco druhá strategie se dívá na průměrný rozdíl v NLL s odstavcem a bez odstavce (P), s otázkou a bez otázky (Q). Na dostupných 918 otázkách od StrategyQA tento přístup výrazně zlepšuje kvalitu odpovědí vzhledem k základní linii s CoT (60 %); obě možnosti vyhledávání dávají kolem 66 % (strategie s mírně vyšší deltou). Pokud jsou předložena zlatá fakta, kvalita se pohybuje kolem 81 %, což je horní hranice pro OPT. Zdá se, že Darklang tam někam míří, ale trochu jiným způsobem.

Článek je založen na telegramu zveřejnit.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
Business Novinky Technika
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
3
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
Trhy Novinky Technika
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
3
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
Trhy Novinky Technika
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
3
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
Business Novinky Technika
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
3
CRYPTOMERIA LABS PTE. LTD.