Notizie Tecnologia
15 Maggio 2023

Programmi LLM: il nuovo percorso per la messa a punto dei modelli neurali in situazioni complesse

In Breve

Gli autori propongono un percorso alternativo chiamato LLM Programs, che può essere considerato come lo sviluppo dell'apprendimento contestuale.

La chiave per risolvere un problema attraverso il programma LLM è la capacità di scomporre la soluzione a un problema in una sequenza di passaggi più semplici.

Esistono due aree principali di personalizzazione LLM: messa a punto (o formazione aggiuntiva) del modello di base pre-addestrato e apprendimento contestuale. La messa a punto richiede notevoli risorse di elaborazione, raccolta dati e infrastruttura per eseguire questa operazione e quindi ospitare modelli ottimizzati. Nel frattempo, l'apprendimento contestuale implica la compilazione del prompt giusto con esempi di risoluzione del problema, come Chain-of-Thought (CoT). Tuttavia, ci sono alcune difficoltà, come la dimensione limitata del testo che può essere inviato al modello e il fatto che in un prompt multi-pass complesso, i passaggi possono interferire tra loro e il modello può essere distratto da qualcosa che non dovrebbe essere distratto al momento. Gli autori propongono un percorso alternativo chiamato Programmi LLM, che può essere considerato come lo sviluppo dell'apprendimento contestuale.

Programmi LLM: il nuovo percorso per la messa a punto dei modelli neurali in situazioni complesse
Consigliato: Guida definitiva di Prompt Engineering 2023

LLM è integrato nel programma (in un file convenzionale linguaggio di programmazione, ad esempio, in Python). Questo codice esterno è responsabile della memorizzazione dello stato e del mantenimento del modello passo dopo passo. Presenta alcuni importanti vantaggi: i linguaggi di programmazione sono adattati per questo, la dimensione del contesto disponibile cresce e i passaggi non interferiscono l'uno con l'altro. La chiave per risolvere un problema attraverso il programma LLM è la capacità di scomporre la soluzione a un problema in una sequenza di passaggi più semplici. Questo approccio differisce dai lavori precedenti, in cui il modello utilizzava strumenti esterni come calcolatrici o interpreti di codice per mantenere lo stato. Questo approccio è buono perché è possibile descrivere un'attività complessa e diffusa in questo modo, rendendo più facile testare, eseguire il debug e valutare la qualità.

Inoltre, non vi è alcuna interferenza tra i passaggi, facilitando il lavoro con LLM. Anche i sistemi domanda-risposta non sono nuovi; sono esistiti molto prima degli LLM. Come viene risolto ora il compito di rispondere alle domande?

I siti vengono aggiornati frequentemente, quindi a modello congelato non è un'opzione; diventerà rapidamente obsoleto e non sarà in grado di rispondere a domande sui nuovi prodotti. La riqualificazione costante del modello per ogni aggiornamento non è un'opzione realistica: è costosa e richiede tempo. Invece, le pagine di un sito web sono solitamente indicizzate, inserite in una sorta di database e spesso vettorializzate. Su richiesta dell'utente, i documenti pertinenti vengono estratti e inviati come contesto a LLM.

In un tale paradigma, il problema è naturalmente risolto attraverso il programma LLM. Come bonus, esso diventa possibile per implementare una logica multi-pass più complessa che non si adatterebbe interamente al contesto.

Testato sul Set di dati di controllo qualità della strategia contenente problemi di classificazione binaria, la cui soluzione implica un ragionamento a più vie. Come "La luce del sole penetra nel punto più profondo del Mar Nero?". Per rispondere, è necessario trovare la profondità massima (2 km) e la profondità con cui la luce penetra nell'acqua (1 km), quindi trarre una conclusione. Diamo un'occhiata a un'altra domanda di esempio: "Aristotele usava un laptop?" Questa domanda non è così semplice e non segue esplicitamente la sequenza dei passaggi del ragionamento come "Aristotele era vivo quando è stato inventato il laptop?" fa. Il set di dati si concentra su domande in cui tale sequenza è implicita. Ci sono solo 2,780 domande nel set di dati, di cui solo 918 hanno paragrafi con prove che rafforzano tutti i passaggi del ragionamento. Nel lavoro attuale, si limita a questo sottoinsieme; in caso contrario, dovremmo fare affidamento sul fatto che LLM apprenda alcuni fatti durante il pretraining.

L'OPT-175B LLM, per impostazione predefinita, non è molto bravo a seguire le istruzioni; non doveva mettere a punto le istruzioni né sui dati conversazionali. Per risolvere il problema di risposta alle domande supportato da prove, è suddiviso in una fase di filtraggio dei dati e una fase di ricerca ad albero.

Nella fase di filtraggio, avendo una domanda, gli sviluppatori esaminano tutti i paragrafi e selezionano quelli più rilevanti. Ad esempio, con un prompt di pochi colpi, chiedi all'LLM di rispondere (sì/no) se un dato paragrafo è rilevante per la domanda posta. Testato su un sottoinsieme 300 di StrategyQA, in cui ogni domanda è stata abbinata a un paragrafo, pertinente o meno, 50/50. OPT-175B e text-davinci-002 non hanno a qualità molto superiore rispetto a una linea di base casuale: fino al 56%. Il più avanzato 11B Tk-Istruz non è molto meglio al 61.6%.

A causa della scarsa qualità di questo approccio, è stata messa insieme un'alternativa che considera la probabilità logaritmica negativa media (NLL) della domanda in combinazione con il paragrafo precedente del testo e quindi classifica i risultati. Valutato su un set di dati in cui per ogni domanda c'erano 100 paragrafi e solo uno era rilevante (quindi l'ipotesi casuale dà l'1%). Abbiamo ottenuto la precisione top-1 al 79% e top-5 al 93%. Per questo calcolo, di solito è necessario accedere al modello stesso, cosa che non sempre viene eseguita nell'API.

Poi arriva la fase della costruzione di catene di produzione. Questo viene fatto attraverso una ricerca attraverso un albero in cui la domanda è la radice, e ad ogni livello ci sono molti paragrafi con possibili prove utilizzate come contesto per generare il passaggio successivo. Ogni percorso attraverso l'albero è una potenziale catena di output. Non è realistico trarre una conclusione su tutte le possibili catene, quindi tutte le catene disponibili vengono classificate e la catena con il punteggio più alto viene espansa. Questa è una tale variazione della ricerca del raggio. Il processo si interrompe quando viene effettuata una risposta o è trascorso il numero massimo consentito di passaggi.

I dettagli più importanti sono le due strategie di classificazione testate per la fase di ricerca dell'albero. La prima strategia si basa sulla media NLL dell'intera catena, mentre la seconda strategia esamina la differenza media in NLL con e senza paragrafo (P), con e senza domanda (Q). Sulle 918 domande disponibili da StrategyQA, questo approccio migliora significativamente la qualità della risposta rispetto alla linea di base con CoT (60%); entrambe le opzioni di ricerca danno circa il 66% (la strategia con un delta leggermente più alto). Se vengono inviati fatti d'oro, la qualità si aggira intorno all'81%, che è il limite massimo per OPT. Darklang sembra andare lì da qualche parte, ma in un modo leggermente diverso.

L'articolo è basato su Telegram settimana.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
Affari Notizie Tecnologia
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
3 Maggio 2024
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
Mercati Notizie Tecnologia
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
3 Maggio 2024
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
Mercati Notizie Tecnologia
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
3 Maggio 2024
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
Affari Notizie Tecnologia
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
3 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.