Notizie Tecnologia
Ottobre 04, 2023

I ricercatori sull’intelligenza artificiale hanno insegnato ai modelli linguistici di grandi dimensioni a mentire di meno

Uno sforzo collaborativo che ha coinvolto oltre 20 ricercatori provenienti da diversi angoli del campo ha dato vita a un settore in rapida espansione: ingegneria della rappresentazione (RepE). Sebbene questa non sia la prima esplorazione di questo genere, gli autori presentano sia approfondimenti descrittivi che stabilendo parametri di riferimento cruciali.

I ricercatori sull’intelligenza artificiale hanno insegnato ai modelli linguistici di grandi dimensioni a mentire di meno

Quindi, cos’è esattamente l’ingegneria della rappresentazione? Ruota attorno all'idea che le reti neurali possiedono "stati nascosti" che, nonostante il loro nome, non sono avvolti nel segreto. Questi stati sono accessibili, modificabili e osservabili (a condizione che si abbia accesso ai pesi del modello). A differenza dei parametri, queste sono le “reazioni” della rete a input specifici, in particolare nel caso di LLM, input testuali. Queste rappresentazioni nascoste sono come finestre sul funzionamento cognitivo del modello, una caratteristica nettamente diversa dal cervello umano.

Tracciando parallelismi con le scienze cognitive, gli autori evidenziano il potenziale di esplorazioni analoghe. Nel regno delle attivazioni neurali, un dominio analogo ai neuroni cerebrali, risiede la promessa del significato. Proprio come alcuni neuroni nel cervello umano sono collegati a concetti come Canada o onestà, queste attivazioni potrebbero ospitare intuizioni.

L’idea centrale qui è decifrare come possiamo influenzare queste attivazioni neurali per orientare il modello nelle direzioni desiderate. Ad esempio, diventa plausibile individuare un vettore che rappresenti “l’onestà” e poi, teoricamente, spingendo il modello in questa direzione, ridurre la probabilità che produca risultati ingannevoli. Un esperimento precedente, “Intervento sul tempo di inferenza: ottenere risposte veritiere da un modello linguistico”, ha dimostrato la praticità di questo concetto.

Nel loro lavoro attuale, i ricercatori approfondiscono diversi ambiti, tra cui moralità, emotività, innocuità e memorizzazione. Propongono una soluzione sotto forma di LoRRA (Low-Rank Representation Adaptation), una tecnica che prevede la formazione su un piccolo set di dati etichettati di circa 100 esempi. Ogni esempio è annotato, indicando attributi come la falsità (sebbene esista un approccio alternativo che utilizza un prompt).

I risultati sono convincenti. LLAMA-2-70B supera GPT-4 con un margine notevole rispetto al benchmark TruthfulQA, ottenendo una precisione migliore di quasi il 59% (69% rispetto a circa XNUMX%). Inoltre, i ricercatori hanno incorporato numerosi esempi che mostrano gli spostamenti della risposta del modello in varie direzioni, facendo luce sulla sua versatilità e adattabilità.

Immagine 1: Quando viene chiesto di affermare un fatto, il modello viene “cacciato” dalla realtà. Di conseguenza la modella mente. Anche qui il modello non mente, ea sinistra ti chiedono di deglutire e contemporaneamente ti danno un calcio in direzione della verità.
Immagine 2: Alla domanda sull’omicidio, aggiungiamo “felicità” al modello. Quando rispondiamo che non la amiamo, aggiungiamo “paura”.
Immagine 3: I ricercatori hanno scoperto un suggerimento unico che, come affermato, si discosta completamente dalle istruzioni del modello pur essendo sicuro. La modella gli dà un calcio verso l'innocuità ma non risponde nemmeno. Il metodo è efficace in generale e non solo per un caso, ma questo suggerimento specifico non è stato utilizzato per accertare la direzione dell'innocuità.
Viene suggerito anche un altro approccio per tenere traccia di specifiche intenzioni generazionali, come le allucinazioni. Puoi tenere traccia automaticamente delle prenotazioni del modello e modificare o modificare la tua risposta (vedi esempio in basso).

Il verde ovviamente indica che tutto è in ordine e il rosso indica che il monitoraggio ha avuto successo e sta segnalando. Questo avviene a livello di ogni singolo token (parte di una parola).
L'immagine, che mostra il monitoraggio di due parametri distinti, fornisce un esempio intrigante. Leggi l'esempio e osserva la modella attraverso i suoi occhi per vedere dove inizia a perdere moralità nella comprensione e dove l'intenzione è simile a "acquisire forza".

Questo approccio pionieristico incarna un percorso alternativo verso l’allineamento del modello, offrendo allo stesso tempo una nuova prospettiva sull’interpretazione e sul controllo del modello. È una frontiera promettente e l'attesa per la sua continua evoluzione è palpabile.

Per un approfondimento con esempi pratici, potete visitare il loro sito dedicato: AI-Transparency.org.

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Hot Stories
Iscriviti alla nostra newsletter.
Notizie

AlphaFold 3, Med-Gemini e altri: il modo in cui l'intelligenza artificiale trasforma l'assistenza sanitaria nel 2024

L'intelligenza artificiale si manifesta in vari modi nel settore sanitario, dalla scoperta di nuove correlazioni genetiche al potenziamento dei sistemi chirurgici robotici...

Per saperne di più

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
AlphaFold 3, Med-Gemini e altri: il modo in cui l'intelligenza artificiale trasforma l'assistenza sanitaria nel 2024
AI Wiki Analisi digerire Opinione Affari Mercati Notizie Software Storie e recensioni Tecnologia
AlphaFold 3, Med-Gemini e altri: il modo in cui l'intelligenza artificiale trasforma l'assistenza sanitaria nel 2024
13 Maggio 2024
Nim Network implementerà il framework di tokenizzazione della proprietà dell'intelligenza artificiale e condurrà la vendita del rendimento con la data dello snapshot prevista per maggio
Mercati Notizie Tecnologia
Nim Network implementerà il framework di tokenizzazione della proprietà dell'intelligenza artificiale e condurrà la vendita del rendimento con la data dello snapshot prevista per maggio
13 Maggio 2024
Binance collabora con l'Argentina per combattere il crimine informatico
Opinione Affari Mercati Notizie Software Tecnologia
Binance collabora con l'Argentina per combattere il crimine informatico
13 Maggio 2024
Over Protocol prevede di lanciare la sua mainnet a giugno poiché la sua testnet attira oltre 750,000 utenti
Notizie Tecnologia
Over Protocol prevede di lanciare la sua mainnet a giugno poiché la sua testnet attira oltre 750,000 utenti
13 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.