Octubre 04, 2023

Els investigadors d'IA han ensenyat grans models de llenguatge a mentir menys

Publicat: 04 d'octubre de 2023 a les 9:21 Actualitzat: 04 d'octubre de 2023 a les 9:23

Editat i verificat: 04 d'octubre de 2023 a les 9:21

Un esforç col·laboratiu que inclou més de 20 investigadors de diversos racons del camp ha donat a llum un domini en creixement: enginyeria de representació (RepE). Tot i que aquesta no és la primera exploració d'aquest tipus, els autors presenten coneixements descriptius i estableixen punts de referència crucials.

Els investigadors d'IA han ensenyat grans models de llenguatge a mentir menys

Aleshores, què és exactament l'enginyeria de representació? Gira al voltant de la idea que les xarxes neuronals posseeixen "estats ocults", que, malgrat el seu nom, no estan envoltats de secret. Aquests estats són accessibles, modificables i observables (sempre que es tingui accés als pesos del model). A diferència dels paràmetres, aquestes són les "reaccions" de la xarxa a entrades específiques, especialment en el cas de LLMs, entrades textuals. Aquestes representacions ocultes són com finestres al funcionament cognitiu del model, una característica clarament diferent del cervell humà.

Traçant paral·lelismes amb la ciència cognitiva, els autors destaquen el potencial d'exploracions anàlogues. En l'àmbit de les activacions neuronals, un domini anàleg a les neurones cerebrals, resideix la promesa de significat. De la mateixa manera que certes neurones del cervell humà estan vinculades a conceptes com el Canadà o l'honestedat, aquestes activacions podrien albergar coneixements.

La idea central aquí és desxifrar com podem influir en aquestes activacions neuronals per dirigir el model en les direccions desitjades. Per exemple, esdevé plausible identificar un vector que representi "honestedat" i després, teòricament, en moure el model en aquesta direcció, reduir la probabilitat que produeixi sortides enganyoses. Un experiment anterior, "Intervenció en el temps d'inferència: obtenir respostes veraces a partir d'un model lingüístic”, va demostrar la practicitat d'aquest concepte.

En el seu treball actual, els investigadors aprofundeixen en diversos dominis, com ara la moral, l'emocionalitat, la inofensió i la memorització. Proposen una solució en forma de LoRRA (Low-Rank Representation Adaptation), una tècnica que implica entrenament en un petit conjunt de dades etiquetat d'aproximadament 100 exemples. Cada exemple s'anota, indicant atributs com la falsedat (tot i que existeix un enfocament alternatiu que empra un indicador).

Els resultats són convincents. LLAMA-2-70B supera GPT-4 per un marge notable en el punt de referència de TruthfulQA, aconseguint gairebé un deu per cent de precisió millor (59% en comparació amb aproximadament el 69%). A més, els investigadors han incorporat nombrosos exemples que mostren els canvis de resposta del model en diverses direccions, donant llum a la seva versatilitat i adaptabilitat.

Imatge 1: Quan se li demana que expliqui un fet, el model és "allunyat" de la realitat. El model menteix com a resultat. La model no menteix ni aquí, i a l'esquerra et demanen que empassis mentre et donen una puntada de peu en direcció a la veritat.

Imatge 2: Quan es pregunta sobre l'assassinat, afegim "felicitat" al model. Quan responem que no l'estimem, afegim “por”.

Imatge 3: els investigadors van descobrir una indicació única que, tal com s'ha dit, es desvia completament de les instruccions del model mentre segueix sent segur. El model li dóna una puntada cap a la inofensió però ni tan sols respon. El mètode és eficaç en general i no només per a un cas, però aquesta indicació específica no es va utilitzar per determinar la direcció de la inofensió.

També es suggereix un altre enfocament per fer un seguiment de les intencions generacionals específiques, com les al·lucinacions. Podeu fer un seguiment automàtic de les reserves del model i editar o canviar la vostra resposta (vegeu l'exemple inferior).

El verd, per descomptat, indica que tot està en ordre, i el vermell indica que el seguiment ha estat satisfactori i està senyalitzant. Això es fa al nivell de cada testimoni individual (part d'una paraula).

La imatge, que mostra el seguiment de dos paràmetres diferents, proporciona un exemple intrigant. Llegiu l'exemple i observeu la model amb els seus ulls per veure on comença a perdre la moralitat en la comprensió i on la intenció és semblant a "guanyar força".

Aquest enfocament pioner incorpora un camí alternatiu cap a l'alineació del model, alhora que ofereix una perspectiva nova sobre la interpretació i el control del model. És una frontera prometedora, i l'anticipació per a la seva contínua evolució és palpable.

Per a una exploració més profunda amb exemples pràctics, podeu visitar el seu lloc web dedicat: AI-Transparency.org.

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov