Novinová správa Technológia
Môže 15, 2023

LLM programy: Nová cesta k jemnému ladeniu neurálnych modelov v zložitých situáciách

Stručne

Autori navrhujú alternatívnu cestu nazvanú LLM programy, ktorú možno považovať za rozvoj učenia sa v kontexte.

Kľúčom k riešeniu problému prostredníctvom programu LLM je schopnosť rozložiť riešenie problému do postupnosti jednoduchších krokov.

Existujú dve hlavné oblasti prispôsobenia LLM: doladenie (alebo dodatočné školenie) vopred vyškoleného základného modelu a kontextové učenie. Jemné ladenie si vyžaduje značné výpočtové zdroje, zber údajov a infraštruktúru, aby to bolo možné, a potom hostiť doladené modely. Medzitým učenie v kontexte zahŕňa zostavenie správnej výzvy s príkladmi riešenia problému, ako je reťazec myšlienok (CoT). Existujú však určité problémy, ako napríklad obmedzená veľkosť textu, ktorý je možné odoslať do modelu, a skutočnosť, že v zložitom viacprechodovom riadku sa kroky môžu navzájom rušiť a model môže byť niečím rozptyľovaný. to by sa momentálne nemalo rozptyľovať. Autori navrhujú alternatívnu cestu tzv LLM programy, čo možno považovať za rozvoj učenia sa v kontexte.

LLM programy: Nová cesta k jemnému ladeniu neurálnych modelov v zložitých situáciách
Odporúčaná: Prompt Engineering Ultimate Guide 2023

LLM je zabudovaný do programu (v konvenčnom programovací jazyk, napríklad v Pythone). Tento externý kód je zodpovedný za ukladanie stavu a udržiavanie modelu krok za krokom. Má to niekoľko zásadných výhod: Programovacie jazyky sú na to prispôsobené, veľkosť dostupného kontextu rastie a kroky sa navzájom nerušia. Kľúčom k riešeniu problému prostredníctvom programu LLM je schopnosť rozložiť riešenie problému do postupnosti jednoduchších krokov. Tento prístup sa líši od predchádzajúcich diel, kde model využíval externé nástroje ako kalkulačky resp interpreti kódov na udržanie štátu. Tento prístup je dobrý, pretože je možné opísať komplexnú a rozširujúcu sa úlohu týmto spôsobom, čo uľahčuje testovanie, ladenie a hodnotenie kvality.

Okrem toho medzi jednotlivými krokmi nedochádza k rušeniu, čo uľahčuje prácu s LLM. Nové nie sú ani systémy otázok a odpovedí; existovali dávno pred LLM. Ako je teraz vyriešená úloha odpovedať na otázky?

Stránky sú často aktualizované, takže a zamrznutý model nie je možnosťou; rýchlo zastará a nebude môcť odpovedať na otázky o nových produktoch. Neustále preškoľovanie modelu pre každú aktualizáciu nie je reálna možnosť: Je to drahé a časovo náročné. Namiesto toho sú webové stránky zvyčajne indexované, vložené do nejakej databázy a často vektorované. Na žiadosť používateľa sa vytiahnu relevantné dokumenty a odošlú sa ako kontext do LLM.

V takejto paradigme sa problém prirodzene rieši prostredníctvom programu LLM. Ako bonus to sa stáva možným implementovať zložitejšiu viacpriechodovú logiku, ktorá by úplne nezapadala do kontextu.

Testované na Dataset StrategyQA obsahujúce binárne klasifikačné problémy, ktorých riešenie zahŕňa mnohostranné uvažovanie. Napríklad „Preniká slnečné svetlo do najhlbších miest Čierneho mora?“. Ak chcete odpovedať, musíte nájsť maximálnu hĺbku (2 km) a ako hlboko svetlo preniká vodou (1 km) a potom vyvodiť záver. Pozrime sa na ďalší príklad otázky: „Používal Aristoteles laptop? Táto otázka nie je taká priamočiara a nesleduje explicitne postupnosť krokov uvažovania ako „Bol Aristoteles nažive, keď bol vynájdený laptop?“ robí. Súbor údajov sa zameriava na otázky, kde je takáto postupnosť implicitná. V súbore údajov je iba 2,780 918 otázok, z ktorých iba XNUMX má odseky s dôkazmi, ktoré posilňujú všetky kroky odôvodnenia. V súčasnej práci sa obmedzuje na túto podmnožinu; inak by sme sa museli spoliehať na to, že LLM sa niektoré fakty dozvie počas predtréningu.

OPT-175B LLM štandardne nie je veľmi dobrý v dodržiavaní pokynov; nemuselo dolaďovať pokyny ani konverzačné údaje. Na vyriešenie problému odpovedí na otázky podložené dôkazmi je rozdelená na fázu filtrovania údajov a fázu vyhľadávania stromov.

Vo fáze filtrovania, keď majú vývojári otázku, prejdú všetky odseky a vyberú tie najrelevantnejšie. Napríklad pomocou niekoľkých výziev požiadajte LLM, aby odpovedalo (áno/nie), či je daný odsek relevantný pre položenú otázku. Testované na 300 podskupine StrategyQA, kde každá otázka bola spojená s odsekom, relevantným alebo nie, 50/50. OPT-175B a text-davinci-002 nemajú a oveľa vyššej kvality než náhodná základná hodnota: až 56 %. Tým pokročilejším 11B Tk-Inštrukcia nie je o nič lepší na úrovni 61.6 %.

Kvôli nízkej kvalite tohto prístupu bola zostavená alternatíva, ktorá zohľadňuje priemernú negatívnu log-pravdepodobnosť (NLL) otázky v kombinácii s predchádzajúcim odsekom textu a potom zoraďuje výsledky. Hodnotené na súbore údajov, kde pre každú otázku bolo 100 odsekov a iba jeden bol relevantný (takže náhodné hádanie dáva 1 %). Dostali sme presnosť top-1 na 79 % a top-5 na 93 %. Na tento výpočet zvyčajne potrebujete prístup k samotnému modelu, čo sa nie vždy robí v API.

Nasleduje fáza budovania výstupných reťazcov. Robí sa to prehľadávaním stromu, kde je otázka koreňom, a na každej úrovni je veľa odsekov s možnými dôkazmi použitými ako kontext na vytvorenie ďalšieho kroku. Každá cesta cez strom je potenciálnym výstupným reťazcom. Je nereálne vyvodiť záver o všetkých možných reťazcoch, preto sa zoradia všetky dostupné reťazce a reťazec s najvyšším poradím sa rozšíri. Toto je taká variácia vyhľadávania lúčom. Proces sa zastaví po odozve alebo po prejdení maximálneho povoleného počtu krokov.

Najdôležitejšími detailmi sú dve hodnotiace stratégie testované pre krok stromového vyhľadávania. Prvá stratégia je založená na priemernom NLL celého reťazca, zatiaľ čo druhá stratégia sa pozerá na priemerný rozdiel v NLL s odsekom a bez odseku (P), s otázkou a bez otázky (Q). Na dostupných 918 otázkach zo StrategyQA tento prístup výrazne zlepšuje kvalitu odpovedí v porovnaní so základnou líniou s CoT (60 %); obe možnosti vyhľadávania dávajú okolo 66 % (stratégia s mierne vyššou deltou). Ak sú predložené zlaté fakty, kvalita sa pohybuje okolo 81 %, čo je horná hranica pre OPT. Zdá sa, že Darklang tam niekam ide, ale trochu iným spôsobom.

Článok je založený na telegrame zverejniť.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
firmy Novinová správa Technológia
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
Môže 3, 2024
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
trhy Novinová správa Technológia
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
Môže 3, 2024
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
trhy Novinová správa Technológia
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
Môže 3, 2024
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
firmy Novinová správa Technológia
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
Môže 3, 2024
CRYPTOMERIA LABS PTE. LTD.