Els investigadors d'IA han ensenyat grans models de llenguatge a mentir menys
Un esforç col·laboratiu que inclou més de 20 investigadors de diversos racons del camp ha donat a llum un domini en creixement: enginyeria de representació (RepE). Tot i que aquesta no és la primera exploració d'aquest tipus, els autors presenten coneixements descriptius i estableixen punts de referència crucials.
Aleshores, què és exactament l'enginyeria de representació? Gira al voltant de la idea que les xarxes neuronals posseeixen "estats ocults", que, malgrat el seu nom, no estan envoltats de secret. Aquests estats són accessibles, modificables i observables (sempre que es tingui accés als pesos del model). A diferència dels paràmetres, aquestes són les "reaccions" de la xarxa a entrades específiques, especialment en el cas de LLMs, entrades textuals. Aquestes representacions ocultes són com finestres al funcionament cognitiu del model, una característica clarament diferent del cervell humà.
Traçant paral·lelismes amb la ciència cognitiva, els autors destaquen el potencial d'exploracions anàlogues. En l'àmbit de les activacions neuronals, un domini anàleg a les neurones cerebrals, resideix la promesa de significat. De la mateixa manera que certes neurones del cervell humà estan vinculades a conceptes com el Canadà o l'honestedat, aquestes activacions podrien albergar coneixements.
La idea central aquí és desxifrar com podem influir en aquestes activacions neuronals per dirigir el model en les direccions desitjades. Per exemple, esdevé plausible identificar un vector que representi "honestedat" i després, teòricament, en moure el model en aquesta direcció, reduir la probabilitat que produeixi sortides enganyoses. Un experiment anterior, "Intervenció en el temps d'inferència: obtenir respostes veraces a partir d'un model lingüístic”, va demostrar la practicitat d'aquest concepte.
En el seu treball actual, els investigadors aprofundeixen en diversos dominis, com ara la moral, l'emocionalitat, la inofensió i la memorització. Proposen una solució en forma de LoRRA (Low-Rank Representation Adaptation), una tècnica que implica entrenament en un petit conjunt de dades etiquetat d'aproximadament 100 exemples. Cada exemple s'anota, indicant atributs com la falsedat (tot i que existeix un enfocament alternatiu que empra un indicador).
Els resultats són convincents. LLAMA-2-70B supera GPT-4 per un marge notable en el punt de referència de TruthfulQA, aconseguint gairebé un deu per cent de precisió millor (59% en comparació amb aproximadament el 69%). A més, els investigadors han incorporat nombrosos exemples que mostren els canvis de resposta del model en diverses direccions, donant llum a la seva versatilitat i adaptabilitat.
Aquest enfocament pioner incorpora un camí alternatiu cap a l'alineació del model, alhora que ofereix una perspectiva nova sobre la interpretació i el control del model. És una frontera prometedora, i l'anticipació per a la seva contínua evolució és palpable.
Per a una exploració més profunda amb exemples pràctics, podeu visitar el seu lloc web dedicat: AI-Transparency.org.
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.