Voi 15, 2023

LLM-ohjelmat: Uusi polku hermomallien hienosäätöön monimutkaisissa tilanteissa

Julkaistu: 15. toukokuuta 2023 klo 3 Päivitetty: 42. toukokuuta 15 klo 2023

Muokattu ja faktatarkistettu: 15. toukokuuta 2023 klo 3

Lyhyesti

Kirjoittajat ehdottavat vaihtoehtoista polkua nimeltä LLM Programs, jota voidaan pitää kontekstin sisäisen oppimisen kehittämisenä.

Avain ongelman ratkaisemiseen LLM-ohjelman kautta on kyky jakaa ongelman ratkaisu yksinkertaisempien vaiheiden sarjaksi.

LLM-räätälöinnissä on kaksi pääaluetta: esikoulutetun perusmallin hienosäätö (tai lisäkoulutus) ja konteksti-oppiminen. Hienosäätö vaatii huomattavia laskentaresursseja, tiedonkeruuta ja infrastruktuuria tehdäkseen tämän ja sitten isännöidä hienosäädettyjä malleja. Samaan aikaan kontekstissa tapahtuvaan oppimiseen kuuluu oikean kehotteen kokoaminen esimerkkeihin ongelman ratkaisemisesta, kuten ajatusketjusta (CoT). On kuitenkin joitain hankaluuksia, kuten malliin lähetettävän tekstin rajallinen koko ja se, että monimutkaisessa monivaiheisessa kehotteessa vaiheet voivat häiritä toisiaan ja jokin voi häiritä mallia. jota ei pitäisi tällä hetkellä häiritä. Kirjoittajat ehdottavat vaihtoehtoista polkua nimeltä LLM-ohjelmat, jota voidaan pitää kontekstin sisäisen oppimisen kehittämisenä.

LLM-ohjelmat: Uusi polku hermomallien hienosäätöön monimutkaisissa tilanteissa

Suositus: Prompt Engineering Ultimate Guide 2023

LLM on sisäänrakennettu ohjelmaan (perinteisessä ohjelmointikieliesimerkiksi Pythonissa). Tämä ulkoinen koodi on vastuussa tilan tallentamisesta ja mallin ylläpidosta askel askeleelta. Siinä on muutamia merkittäviä etuja: Ohjelmointikielet on mukautettu tähän, käytettävissä olevan kontekstin koko kasvaa, eivätkä vaiheet häiritse toisiaan. Avain ongelman ratkaisemiseen LLM-ohjelman kautta on kyky jakaa ongelman ratkaisu yksinkertaisempien vaiheiden sarjaksi. Tämä lähestymistapa poikkeaa aiemmista töistä, joissa mallissa käytettiin ulkoisia työkaluja, kuten laskimia tai koodin tulkit valtion ylläpitämiseksi. Tämä lähestymistapa on hyvä, koska monimutkainen ja leviävä tehtävä voidaan kuvata tällä tavalla, mikä helpottaa laadun testaamista, virheenkorjausta ja arviointia.

Lisäksi vaiheiden välillä ei ole häiriöitä, mikä helpottaa työskentelyä LLM:n kanssa. Myöskään kysymys-vastausjärjestelmät eivät ole uusia; ne ovat olleet olemassa kauan ennen LLM:itä. Miten kysymyksiin vastaaminen on nyt ratkaistu?

Sivustoja päivitetään usein, joten a jäädytetty malli ei ole vaihtoehto; se vanhenee nopeasti, eikä se pysty vastaamaan uusia tuotteita koskeviin kysymyksiin. Mallin jatkuva uudelleenkoulutus jokaista päivitystä varten ei ole realistinen vaihtoehto: se on kallista ja aikaa vievää. Sen sijaan verkkosivuston sivut yleensä indeksoidaan, laitetaan jonkinlaiseen tietokantaan ja usein vektoroidaan. Käyttäjän pyynnöstä asiaankuuluvat asiakirjat vedetään esiin ja lähetetään kontekstina LLM:lle.

Tällaisessa paradigmassa ongelma ratkaistaan luonnollisesti LLM-ohjelman kautta. Bonuksena se tulee mahdolliseksi toteuttaa monimutkaisempaa monipäästölogiikkaa, joka ei sovi täysin kontekstiin.

Testattu StrategyQA-tietojoukko sisältää binääriluokitteluongelmia, joiden ratkaisuun sisältyy monisuuntainen päättely. Kuten "Tunkeutuuko auringonvalo Mustanmeren syvimpään paikkaan?". Vastataksesi sinun on löydettävä suurin syvyys (2 km) ja kuinka syvälle valo tunkeutuu veteen (1 km) ja tehtävä sitten johtopäätös. Katsotaanpa toista esimerkkikysymystä: "Käyttikö Aristoteles kannettavaa tietokonetta?" Tämä kysymys ei ole niin suoraviivainen eikä seuraa päättelyvaiheiden järjestystä nimenomaisesti kuin "Oliko Aristoteles elossa, kun kannettava tietokone keksittiin?" tekee. Tietojoukko keskittyy kysymyksiin, joissa tällainen järjestys on implisiittinen. Aineistossa on vain 2,780 918 kysymystä, joista vain XNUMX:ssa on kappaleita, joissa on todisteita, jotka vahvistavat kaikkia päättelyn vaiheita. Nykyisessä työssä se rajoittuu tähän osajoukkoon; muuten meidän olisi luotettava siihen, että LLM oppii joitain tosiasioita esikoulutuksen aikana.

OPT-175B LLM ei ole oletuksena kovin hyvä seuraamaan ohjeita; sen ei tarvinnut hienosäätää ohjeita eikä keskusteludataa. Näyttöön perustuvan kysymys-vastaus-ongelman ratkaisemiseksi on jaettu tietojen suodatusvaiheeseen ja puuhakuvaiheeseen.

Suodatusvaiheessa kehittäjät käyvät kysymyksessä läpi kaikki kappaleet ja valitsevat osuvimmat. Pyydä esimerkiksi muutaman laukauksen kehotteen avulla LLM:ää vastaamaan (kyllä/ei), onko tietty kappale relevantti esitettyyn kysymykseen. Testattiin StrategyQA:n 300 alijoukolla, jossa jokaiseen kysymykseen yhdistettiin kappale, oli se relevantti tai ei, 50/50. OPT-175B ja text-davinci-002 eivät sisällä a paljon laadukkaampaa kuin satunnainen lähtötaso: jopa 56 %. Edistyneempi 11B Tk-Instruct ei ole paljon parempi, 61.6%.

Tämän lähestymistavan huonosta laadusta johtuen koottiin vaihtoehto, joka ottaa huomioon kysymyksen keskimääräisen negatiivisen log-todennäköisyyden (NLL) yhdessä edellisen tekstikappaleen kanssa ja arvostaa sitten tulokset. Arvioitu tietojoukolla, jossa jokaiselle kysymykselle oli 100 kappaletta, ja vain yksi oli relevantti (joten satunnainen arvaus antaa 1 %). Saimme top-1-tarkkuuden 79 % ja top-5 93 %. Tätä laskentaa varten tarvitset yleensä pääsyn itse malliin, mitä ei aina tehdä API:ssa.

Seuraavaksi tulee tuotantoketjujen rakentamisen vaihe. Tämä tehdään hakemalla puusta, jossa kysymys on juuri, ja jokaisella tasolla on monia kappaleita, joissa on mahdollista näyttöä, jota käytetään kontekstina seuraavan vaiheen luomiseen. Jokainen polku puun läpi on mahdollinen tulosketju. On epärealistista tehdä johtopäätöksiä kaikista mahdollisista ketjuista, joten kaikki saatavilla olevat ketjut asetetaan paremmuusjärjestykseen ja korkeimman tason ketjua laajennetaan. Tämä on tällainen säteen haun muunnelma. Prosessi pysähtyy, kun vastaus annetaan tai suurin sallittu määrä vaiheita on kulunut.

Tärkeimmät yksityiskohdat ovat puuhakuvaiheessa testatut kaksi sijoitusstrategiaa. Ensimmäinen strategia perustuu koko ketjun keskimääräiseen NLL:ään, kun taas toinen strategia tarkastelee NLL:n keskimääräistä eroa kappaleella ja ilman (P), kysymyksellä ja ilman kysymystä (Q). StrategyQA:n 918 kysymyksessä tämä lähestymistapa parantaa merkittävästi vastausten laatua verrattuna CoT:n lähtötasoon (60 %). molemmat hakuvaihtoehdot antavat noin 66 % (strategia hieman korkeammalla deltalla). Jos toimitetaan kultaisia faktoja, laadusta tulee noin 81 %, mikä on OPT:n yläraja. Darklang näyttää menevän sinne jonnekin, mutta hieman eri tavalla.

Artikkeli perustuu Telegramiin posti.

Lue lisää tekoälystä:

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.

lisää artikkeleita

Damir Yalalov