I ricercatori sull’intelligenza artificiale hanno insegnato ai modelli linguistici di grandi dimensioni a mentire di meno


Uno sforzo collaborativo che ha coinvolto oltre 20 ricercatori provenienti da diversi angoli del campo ha dato vita a un settore in rapida espansione: ingegneria della rappresentazione (RepE). Sebbene questa non sia la prima esplorazione di questo genere, gli autori presentano sia approfondimenti descrittivi che stabilendo parametri di riferimento cruciali.

Quindi, cos’è esattamente l’ingegneria della rappresentazione? Ruota attorno all'idea che le reti neurali possiedono "stati nascosti" che, nonostante il loro nome, non sono avvolti nel segreto. Questi stati sono accessibili, modificabili e osservabili (a condizione che si abbia accesso ai pesi del modello). A differenza dei parametri, queste sono le “reazioni” della rete a input specifici, in particolare nel caso di LLM, input testuali. Queste rappresentazioni nascoste sono come finestre sul funzionamento cognitivo del modello, una caratteristica nettamente diversa dal cervello umano.
Tracciando parallelismi con le scienze cognitive, gli autori evidenziano il potenziale di esplorazioni analoghe. Nel regno delle attivazioni neurali, un dominio analogo ai neuroni cerebrali, risiede la promessa del significato. Proprio come alcuni neuroni nel cervello umano sono collegati a concetti come Canada o onestà, queste attivazioni potrebbero ospitare intuizioni.
L’idea centrale qui è decifrare come possiamo influenzare queste attivazioni neurali per orientare il modello nelle direzioni desiderate. Ad esempio, diventa plausibile individuare un vettore che rappresenti “l’onestà” e poi, teoricamente, spingendo il modello in questa direzione, ridurre la probabilità che produca risultati ingannevoli. Un esperimento precedente, “Intervento sul tempo di inferenza: ottenere risposte veritiere da un modello linguistico”, ha dimostrato la praticità di questo concetto.
Nel loro lavoro attuale, i ricercatori approfondiscono diversi ambiti, tra cui moralità, emotività, innocuità e memorizzazione. Propongono una soluzione sotto forma di LoRRA (Low-Rank Representation Adaptation), una tecnica che prevede la formazione su un piccolo set di dati etichettati di circa 100 esempi. Ogni esempio è annotato, indicando attributi come la falsità (sebbene esista un approccio alternativo che utilizza un prompt).
I risultati sono convincenti. LLAMA-2-70B supera GPT-4 con un margine notevole rispetto al benchmark TruthfulQA, ottenendo una precisione migliore di quasi il 59% (69% rispetto a circa XNUMX%). Inoltre, i ricercatori hanno incorporato numerosi esempi che mostrano gli spostamenti della risposta del modello in varie direzioni, facendo luce sulla sua versatilità e adattabilità.




Il verde ovviamente indica che tutto è in ordine e il rosso indica che il monitoraggio ha avuto successo e sta segnalando. Questo avviene a livello di ogni singolo token (parte di una parola).

Questo approccio pionieristico incarna un percorso alternativo verso l’allineamento del modello, offrendo allo stesso tempo una nuova prospettiva sull’interpretazione e sul controllo del modello. È una frontiera promettente e l'attesa per la sua continua evoluzione è palpabile.
Per un approfondimento con esempi pratici, potete visitare il loro sito dedicato: AI-Transparency.org.
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.
Altri articoli

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.