May 15, 2023

LLM programok: Az új út a neurális modellek finomhangolásához összetett helyzetekben

Közzétéve: 15. május 2023., 3:42 Frissítve: 15. május 2023., 3:42

Szerkesztve és tényszerűen ellenőrzött: 15. május 2023. 3:42

Röviden

A szerzők egy alternatív utat javasolnak LLM Programok néven, amely a kontextuson belüli tanulás fejlesztésének tekinthető.

A probléma megoldásának kulcsa az LLM Programon keresztül az a képesség, hogy a probléma megoldását egyszerűbb lépések sorozatára bontsuk.

Az LLM testreszabásának két fő területe van: az előre betanított alapmodell finomhangolása (vagy kiegészítő képzése) és a kontextuson belüli tanulás. A finomhangolás jelentős számítási erőforrásokat, adatgyűjtést és infrastruktúrát igényel ehhez, majd finomhangolt modellek tárolására. Eközben a kontextuson belüli tanulás magában foglalja a megfelelő prompt összeállítását a probléma megoldására vonatkozó példákkal, például a gondolati lánccal (CoT). Vannak azonban nehézségek, például a modellbe beküldhető szöveg korlátozott mérete, valamint az, hogy egy összetett, több lépéses prompt esetén a lépések zavarhatják egymást, és a modell figyelmét elterelheti valami. hogy pillanatnyilag nem szabad elterelni a figyelmet. A szerzők egy alternatív utat javasolnak LLM programok, amely a kontextuson belüli tanulás fejlesztésének tekinthető.

LLM programok: Az új út a neurális modellek finomhangolásához összetett helyzetekben

Ajánlott: Prompt Engineering Ultimate Guide 2023

Az LLM be van építve a programba (egy hagyományos programozási nyelvpéldául Pythonban). Ez a külső kód felelős az állapot tárolásáért és a modell karbantartásáért lépésről lépésre. Ennek van néhány nagy előnye: a programozási nyelvek ehhez igazodnak, a rendelkezésre álló kontextus mérete nő, a lépések nem zavarják egymást. A probléma megoldásának kulcsa az LLM Programon keresztül az a képesség, hogy a probléma megoldását egyszerűbb lépések sorozatára bontsuk. Ez a megközelítés eltér a korábbi munkáktól, ahol a modell külső eszközöket, például számológépeket ill kód értelmezők az állam fenntartására. Ez a megközelítés azért jó, mert így le lehet írni egy összetett és terjedő feladatot, ami megkönnyíti a tesztelést, a hibakeresést és a minőség értékelését.

Ezenkívül a lépések között nincs interferencia, ami megkönnyíti az LLM-mel való munkát. A kérdés-felelet rendszerek sem újkeletűek; már jóval az LLM-ek előtt is léteztek. Hogyan oldódik meg most a kérdések megválaszolása?

A webhelyeket gyakran frissítik, így a fagyasztott modell nem választható; gyorsan elavulttá válik, és nem tud válaszolni az új termékekkel kapcsolatos kérdésekre. A modell folyamatos átképzése minden frissítéshez nem reális megoldás: drága és időigényes. Ehelyett a webhely oldalai általában indexelve vannak, valamilyen adatbázisba helyezik, és gyakran vektorosítják. A felhasználó kérésére a rendszer előhívja a releváns dokumentumokat, és kontextusként elküldi az LLM-nek.

Egy ilyen paradigmában a probléma természetesen az LLM Programon keresztül megoldódik. Bónuszként azt lehetségessé válik bonyolultabb többmenetes logika megvalósítására, amely nem illene teljesen a kontextusba.

Tesztelve a StrategyQA adatkészlet bináris osztályozási problémákat tartalmaz, amelyek megoldása többirányú érveléssel jár. Például: „A napfény behatol a Fekete-tenger legmélyebb helyére?”. A válaszhoz meg kell találnia a maximális mélységet (2 km) és azt, hogy a fény milyen mélyen hatol be a vízbe (1 km), majd le kell vonnia a következtetést. Nézzünk egy másik példakérdést: „Használt Arisztotelész laptopot?” Ez a kérdés nem olyan egyszerű, és nem követi kifejezetten az érvelési lépések sorrendjét, mint „Él-e Arisztotelész, amikor feltalálták a laptopot?” csinál. Az adatkészlet azokra a kérdésekre összpontosít, amelyekben egy ilyen sorozat implicit. Az adatkészletben mindössze 2,780 kérdés található, amelyek közül csak 918-ban van olyan bekezdés, amely megerősíti az érvelés minden lépését. A jelenlegi munkában erre a részhalmazra korlátozódik; különben arra kell hagyatkoznunk, hogy az LLM megtanul néhány tényt az előképzés során.

Az OPT-175B LLM alapértelmezés szerint nem tudja túl jól követni az utasításokat; nem kellett finomhangolnia az utasításokat vagy a beszélgetési adatokat. A bizonyítékokkal alátámasztott kérdés-válasz probléma megoldására adatszűrési szakaszra és fa keresési szakaszra oszlik.

A szűrési szakaszban kérdés esetén a fejlesztők végignézik az összes bekezdést, és kiválasztják a legrelevánsabbakat. Például kérje meg az LLM-et, hogy egy néhány lépéses felszólítással válaszoljon (igen/nem), hogy egy adott bekezdés releváns-e a feltett kérdés szempontjából. A StrategyQA egy 300-as részhalmazán tesztelve, ahol minden kérdésre egy bekezdés került párosításra, akár releváns, akár nem, 50/50 arányban. Az OPT-175B és a text-davinci-002 nem rendelkezik a sokkal jobb minőségű mint egy véletlenszerű alapvonal: akár 56%. A fejlettebb 11B Tk-Utasítás nem sokkal jobb, 61.6%.

Ennek a megközelítésnek a gyenge minősége miatt egy olyan alternatívát állítottak össze, amely a kérdés átlagos negatív log-likelihood-ját (NLL) veszi figyelembe a szöveg előző bekezdésével kombinálva, majd rangsorolja az eredményeket. Egy adathalmazon értékelték, ahol minden kérdéshez 100 bekezdés volt, és csak egy volt releváns (tehát a véletlenszerű találgatás 1%-ot ad). A legjobb 1-es pontosságot 79%-kal, a top-5-öt 93%-kal kaptuk. Ehhez a számításhoz általában hozzá kell férnie a modellhez, ami nem mindig történik meg az API-ban.

Ezután következik a kimeneti láncok felépítésének szakasza. Ez egy fán való kereséssel történik, ahol a kérdés a gyökér, és minden szinten sok olyan bekezdés található, amelyekben a lehetséges bizonyítékok szerepelnek kontextusként a következő lépés létrehozásához. A fán keresztül minden egyes útvonal egy potenciális kimeneti lánc. Irreális következtetést levonni az összes lehetséges láncra, ezért az összes elérhető láncot rangsorolják, és a legmagasabb rangú láncot bővítik. Ez a sugárkeresés egy ilyen változata. A folyamat leáll, ha válasz érkezik, vagy a lépések maximális száma eltelt.

A legfontosabb részletek a fakeresési lépéshez tesztelt két rangsorolási stratégia. Az első stratégia a teljes lánc átlagos NLL-én alapul, míg a második stratégia az NLL átlagos különbségét vizsgálja bekezdéssel és anélkül (P), kérdéssel és kérdés nélkül (Q). A StrategyQA elérhető 918 kérdésére vonatkozóan ez a megközelítés jelentősen javítja a válaszok minőségét a CoT-hoz képest (60%); mindkét keresési lehetőség 66% körüli értéket ad (a stratégia valamivel magasabb deltával). Arany tények benyújtása esetén a minőség 81% körüli lesz, ami az OPT felső határa. Úgy tűnik, hogy a Darklang odamegy valahova, de egy kicsit más módon.

A cikk a Telegram alapján készült Hozzászólás.

Tudjon meg többet az AI-ról:

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.

További cikkek

Damir Jalalov