Informe de notícies Tecnologia
Pot 15, 2023

Programes de LLM: el nou camí per ajustar els models neuronals en situacions complexes

En breu

Els autors proposen un camí alternatiu anomenat LLM Programs, que es pot considerar com el desenvolupament de l'aprenentatge en context.

La clau per resoldre un problema mitjançant el programa LLM és la capacitat de descompondre la solució d'un problema en una seqüència de passos més senzills.

Hi ha dues àrees principals de personalització de LLM: afinar (o formació addicional) el model base pre-entrenat i aprenentatge en context. L'afinació requereix recursos informàtics importants, recollida de dades i infraestructura per fer-ho i després allotjar models ajustats. Mentrestant, l'aprenentatge en context implica compilar la indicació adequada amb exemples de resolució del problema, com ara la cadena de pensament (CoT). No obstant això, hi ha algunes dificultats, com ara la mida limitada del text que es pot enviar al model i el fet que en un missatge de pas múltiples complexos, els passos poden interferir entre ells i el model es pot distreure amb alguna cosa. això no s'ha de distreure en aquest moment. Els autors proposen un camí alternatiu anomenat Programes de LLM, que es pot considerar com el desenvolupament de l'aprenentatge en context.

Programes de LLM: el nou camí per ajustar els models neuronals en situacions complexes
Recomanat: Prompt Engineering Ultimate Guide 2023

LLM està integrat al programa (de manera convencional llenguatge de programació, per exemple, a Python). Aquest codi extern s'encarrega d'emmagatzemar l'estat i mantenir el model pas a pas. Té alguns avantatges importants: els llenguatges de programació estan adaptats per a això, la mida del context disponible creix i els passos no s'interfereixen entre ells. La clau per resoldre un problema mitjançant el programa LLM és la capacitat de descompondre la solució d'un problema en una seqüència de passos més senzills. Aquest enfocament es diferencia dels treballs anteriors, on el model utilitzava eines externes com calculadores o intèrprets de codi per mantenir l'estat. Aquest enfocament és bo perquè és possible descriure una tasca complexa i extensiva d'aquesta manera, facilitant la prova, la depuració i l'avaluació de la qualitat.

A més, no hi ha interferències entre els passos, cosa que facilita el treball amb LLM. Els sistemes de preguntes-respostes tampoc són nous; han existit molt abans dels LLM. Com es resol ara la tasca de respondre preguntes?

Els llocs s'actualitzen amb freqüència, per tant a model congelat no és una opció; ràpidament quedarà obsolet i no podrà respondre preguntes sobre nous productes. El reciclatge constant del model per a cada actualització no és una opció realista: és car i requereix molt de temps. En canvi, les pàgines d'un lloc web normalment s'indexen, es posen en algun tipus de base de dades i sovint es vectoritzen. A petició de l'usuari, els documents rellevants s'obtenen i s'envien com a context a LLM.

En aquest paradigma, el problema es resol de manera natural mitjançant el programa LLM. Com a avantatge, això es fa possible per implementar una lògica multipass més complexa que no encaixaria completament en el context.

Provat al Conjunt de dades StrategyQA que conté problemes de classificació binària, la solució dels quals implica un raonament multidireccional. Com "La llum del sol penetra al lloc més profund del mar Negre?". Per respondre, cal trobar la profunditat màxima (2 km) i fins a quina profunditat penetra la llum a l'aigua (1 km) i després treure una conclusió. Fem una ullada a una altra pregunta d'exemple: "Aristòtil va utilitzar un ordinador portàtil?" Aquesta pregunta no és tan senzilla i no segueix explícitament la seqüència de passos de raonament com "Va Aristòtil viu quan es va inventar l'ordinador portàtil?" fa. El conjunt de dades se centra en preguntes on aquesta seqüència està implícita. Només hi ha 2,780 preguntes al conjunt de dades, de les quals només 918 tenen paràgrafs amb evidències que reforcen tots els passos del raonament. En el treball actual, es limita a aquest subconjunt; en cas contrari, hauríem de confiar en que LLM aprengui alguns fets durant la formació prèvia.

L'OPT-175B LLM, per defecte, no és molt bo per seguir instruccions; no havia d'ajustar les instruccions ni les dades de conversa. Per resoldre el problema de resposta a preguntes recolzats per evidències, es divideix en una etapa de filtratge de dades i una etapa de cerca en arbre.

En l'etapa de filtratge, tenint una pregunta, els desenvolupadors passen per tots els paràgrafs i seleccionen els més rellevants. Per exemple, amb una indicació d'uns quants cops, demaneu al LLM que respongui (sí/no) si un paràgraf determinat és rellevant per a la pregunta formulada. Es va provar en un subconjunt de 300 StrategyQA, on cada pregunta es va relacionar amb un paràgraf, rellevant o no, 50/50. OPT-175B i text-davinci-002 no tenen a qualitat molt superior que una línia de base aleatòria: fins al 56%. El més avançat 11B Tk-Instruct no és molt millor amb un 61.6%.

A causa de la mala qualitat d'aquest enfocament, es va crear una alternativa que considera la probabilitat logarítmica negativa (NLL) mitjana de la pregunta en combinació amb el paràgraf de text anterior i després classifica els resultats. Avaluat en un conjunt de dades on per a cada pregunta hi havia 100 paràgrafs i només un era rellevant (per tant, les endevinades aleatòries donen un 1%). Tenim una precisió del primer 1 al 79% i del 5 al 93%. Per a aquest càlcul, normalment necessiteu accedir al model en si, que no sempre es fa a l'API.

A continuació ve l'etapa de construcció de cadenes de producció. Això es fa mitjançant una cerca a través d'un arbre on la pregunta és l'arrel, i a cada nivell, hi ha molts paràgrafs amb possibles evidències utilitzades com a context per generar el següent pas. Cada camí a través de l'arbre és una cadena de sortida potencial. No és realista treure una conclusió sobre totes les cadenes possibles, de manera que es classifiquen totes les cadenes disponibles i s'amplia la cadena de més alt rang. Aquesta és una variació de la cerca de feix. El procés s'atura quan es fa una resposta o s'ha passat el nombre màxim de passos permès.

Els detalls més importants són les dues estratègies de classificació provades per al pas de cerca d'arbres. La primera estratègia es basa en el NLL mitjà de tota la cadena, mentre que la segona estratègia mira la diferència mitjana en NLL amb i sense paràgraf (P), amb i sense pregunta (Q). A les 918 preguntes disponibles de StrategyQA, aquest enfocament millora significativament la qualitat de la resposta en relació amb la línia de base amb CoT (60%); ambdues opcions de cerca donen al voltant del 66% (l'estratègia amb un delta lleugerament superior). Si s'envien fets d'or, la qualitat es torna al voltant del 81%, que és el límit superior per a OPT. Darklang sembla anar-hi a algun lloc, però d'una manera una mica diferent.

L'article està basat en Telegram enviar.

Llegeix més sobre AI:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Negocis Informe de notícies Tecnologia
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Pot 3, 2024
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
mercats Informe de notícies Tecnologia
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
Pot 3, 2024
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
mercats Informe de notícies Tecnologia
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
Pot 3, 2024
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Negocis Informe de notícies Tecnologia
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Pot 3, 2024
CRYPTOMERIA LABS PTE. LTD.