15 Mai, 2023

Programe LLM: noua cale pentru reglarea fină a modelelor neuronale în situații complexe

by Damir Yalalov

Publicat: 15 mai 2023 la 3:42 Actualizat: 15 mai 2023 la 3:42

by Karolina Gaszcz

Editat și verificat: 15 mai 2023 la ora 3:42

Pe scurt

Autorii propun o cale alternativă numită Programe LLM, care poate fi considerată ca dezvoltarea învățării în context.

Cheia pentru rezolvarea unei probleme prin programul LLM este capacitatea de a descompune soluția unei probleme într-o succesiune de pași mai simpli.

Există două domenii principale de personalizare LLM: reglarea fină (sau formarea suplimentară) a modelului de bază pre-antrenat și învățarea în context. Reglarea fină necesită resurse de calcul semnificative, colectarea datelor și infrastructură pentru a face acest lucru și apoi a găzdui modele reglate fin. Între timp, învățarea în context implică compilarea promptului potrivit cu exemple de rezolvare a problemei, cum ar fi Chain-of-Thought (CoT). Cu toate acestea, există unele dificultăți, cum ar fi dimensiunea limitată a textului care poate fi transmis modelului și faptul că într-un prompt multi-pass complex, pașii pot interfera între ei, iar modelul poate fi distras de ceva care nu ar trebui să fie distras pentru moment. Autorii propun o cale alternativă numită Programe LLM, care poate fi considerată ca o dezvoltare a învățării în context.

Programe LLM: noua cale pentru reglarea fină a modelelor neuronale în situații complexe

Recomandat: Prompt Engineering Ultimate Guide 2023

LLM este încorporat în program (într-un mod convențional limbaj de programare, de exemplu, în Python). Acest cod extern este responsabil pentru stocarea stării și menținerea modelului pas cu pas. Are câteva avantaje majore: limbajele de programare sunt adaptate pentru aceasta, dimensiunea contextului disponibil crește, iar pașii nu interferează unul cu celălalt. Cheia pentru rezolvarea unei probleme prin programul LLM este capacitatea de a descompune soluția unei probleme într-o secvență de pași mai simpli. Această abordare diferă de lucrările anterioare, în care modelul folosea instrumente externe precum calculatoare sau interpreti de coduri pentru a menține statul. Această abordare este bună, deoarece este posibil să descrieți o sarcină complexă și răspândită în acest fel, facilitând testarea, depanarea și evaluarea calității.

În plus, nu există interferențe între pași, ceea ce face mai ușor să lucrezi cu LLM. Nici sistemele de întrebări-răspuns nu sunt noi; au existat cu mult înainte de LLM. Cum se rezolvă acum sarcina de a răspunde la întrebări?

Site-urile sunt actualizate frecvent, deci a model congelat nu este o opțiune; va deveni rapid depășit și nu va putea răspunde la întrebări despre produse noi. Recalificarea constantă a modelului pentru fiecare actualizare nu este o opțiune realistă: este costisitoare și necesită timp. În schimb, paginile unui site web sunt de obicei indexate, introduse într-un fel de bază de date și adesea vectorizate. La cererea unui utilizator, documentele relevante sunt extrase și trimise ca context către LLM.

Într-o astfel de paradigmă, problema este rezolvată în mod natural prin Programul LLM. Ca bonus, ea devine posibil pentru a implementa o logică multi-pass mai complexă care nu s-ar încadra în întregime în context.

Testat pe Setul de date StrategyQA conținând probleme de clasificare binară, a căror rezolvare implică raționament multidirecțional. De exemplu, „Pătrunde lumina soarelui în cel mai adânc loc al Mării Negre?”. Pentru a răspunde, trebuie să găsiți adâncimea maximă (2 km) și cât de adânc pătrunde lumina în apă (1 km), apoi trageți o concluzie. Să aruncăm o privire la un alt exemplu de întrebare: „Aristotel a folosit un laptop?” Această întrebare nu este la fel de simplă și nu urmează secvența pașilor de raționament în mod explicit precum „A fost Aristotel în viață când a fost inventat laptopul?” face. Setul de date se concentrează pe întrebări în care o astfel de secvență este implicită. Există doar 2,780 de întrebări în setul de date, dintre care doar 918 au paragrafe cu dovezi care întăresc toți pașii raționamentului. În lucrările curente, se limitează la acest subset; altfel, ar trebui să ne bazăm pe LLM învățarea unor fapte în timpul pregătirii preliminare.

OPT-175B LLM, în mod implicit, nu este foarte bun în a urma instrucțiunile; nu trebuia să ajusteze instrucțiunile și nici datele conversaționale. Pentru a rezolva problema de răspuns la întrebări susținute de dovezi, este împărțit într-o etapă de filtrare a datelor și o etapă de căutare în arbore.

În etapa de filtrare, având o întrebare, dezvoltatorii parcurg toate paragrafele și le selectează pe cele mai relevante. De exemplu, cu o solicitare de câteva fotografii, cereți LLM să răspundă (da/nu) dacă un anumit paragraf este relevant pentru întrebarea adresată. Testat pe un subset de 300 de StrategyQA, unde fiecare întrebare a fost asociată cu un paragraf, relevant sau nu, 50/50. OPT-175B și text-davinci-002 nu au a calitate mult mai mare decât o linie de bază aleatoare: până la 56%. Cu cât mai avansate 11B Tk-Instruct nu este cu mult mai bună la 61.6%.

Datorită calității slabe a acestei abordări, a fost creată o alternativă care ia în considerare log-probabilitatea medie negativă (NLL) a întrebării în combinație cu paragraful precedent de text și apoi ierarhizează rezultatele. Evaluat pe un set de date în care pentru fiecare întrebare, au existat 100 de paragrafe și doar unul a fost relevant (deci ghicitul aleatoriu dă 1%). Avem o precizie de top 1 la 79% și top-5 la 93%. Pentru acest calcul, de obicei aveți nevoie de acces la modelul în sine, ceea ce nu se face întotdeauna în API.

Urmează etapa construirii lanțurilor de producție. Acest lucru se face printr-o căutare printr-un arbore unde întrebarea este rădăcina, iar la fiecare nivel, există multe paragrafe cu posibile dovezi folosite ca context pentru a genera următorul pas. Fiecare cale prin arbore este un potențial lanț de ieșire. Este nerealist să tragi o concluzie asupra tuturor lanțurilor posibile, astfel încât toate lanțurile disponibile sunt clasate, iar lanțul cu cel mai înalt rang este extins. Aceasta este o astfel de variație a căutării fasciculului. Procesul se oprește atunci când este dat un răspuns sau a trecut numărul maxim permis de pași.

Cele mai importante detalii sunt cele două strategii de clasare testate pentru pasul de căutare în arbore. Prima strategie se bazează pe NLL medie a întregului lanț, în timp ce a doua strategie analizează diferența medie a NLL cu și fără un paragraf (P), cu și fără întrebare (Q). Pe cele 918 întrebări disponibile de la StrategyQA, această abordare îmbunătățește semnificativ calitatea răspunsului față de linia de bază cu CoT (60%); ambele opțiuni de căutare oferă în jur de 66% (strategia cu o deltă puțin mai mare). Dacă sunt prezentate fapte de aur, calitatea devine în jur de 81%, care este limita superioară pentru OPT. Darklang pare să meargă acolo undeva, dar într-un mod ușor diferit.

Articolul se bazează pe Telegramă post.

Citiți mai multe despre AI:

Etichete:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.

Mai multe articole

Damir Yalalov