Analisi Tecnologia
01 Agosto 2023

Is GPT-4 Stai per potenziare la robotica? Perché RT-2 cambia tutto

In Breve

Google DeepMind ha sviluppato applicazioni modello di linguaggio visivo per controllo robotico end-to-end, concentrandosi sulla loro capacità di generalizzare e trasferire la conoscenza tra domini.

Il modello RT-2, progettato per generare sequenze in grado di codificare grandi quantità di informazioni, è stato testato in vari scenari, inclusi oggetti sconosciuti, background diversi e ambienti vari.

Il modello RT-2 supera alcuni dei suoi predecessori nell'adattarsi alle nuove condizioni, in gran parte grazie al suo ampio modello linguistico.

Google DeepMind ha studiato le applicazioni del modello di linguaggio visivo, concentrandosi sul loro potenziale per il controllo robotico end-to-end. Questa indagine ha cercato di determinare se questi modelli fossero suscettibili di un'ampia generalizzazione. Inoltre, ha studiato se determinate funzioni cognitive, come il ragionamento e la pianificazione, che sono spesso associate a modelli linguistici espansivi, potrebbero emergere in questo contesto.

Is GPT-4 Stai per potenziare la robotica? Perché RT-2 cambia tutto
Crediti: Metaverse Post / Stable Diffusion

La premessa fondamentale alla base di questa esplorazione è intrinsecamente legata alle caratteristiche dei grandi modelli linguistici (LLM). Come i modelli sono progettati per generare qualsiasi sequenza in grado di codificare una vasta gamma di informazioni. Ciò include non solo un linguaggio comune o un codice di programmazione come Python, ma anche comandi specifici in grado di guidare le azioni robotiche.

Per metterlo in prospettiva, considera la capacità del modello di comprendere e tradurre sequenze di stringhe specifiche in comandi robotici utilizzabili. A titolo illustrativo, una stringa generata come "1 128 91 241 5 101 127 217" può essere decodificata nel modo seguente:

  • La cifra iniziale, uno, indica che l'attività è ancora in corso e non ha raggiunto il completamento.
  • La successiva triade di numeri, 128-91-241, designa uno spostamento relativo e normalizzato attraverso le tre dimensioni dello spazio.
  • Il set conclusivo, 101-127-217, individua il grado di rotazione del segmento del braccio funzionale del robot.

Una tale configurazione abilita il robot per modificare il suo stato attraverso sei gradi di libertà. Tracciando un parallelo, proprio come modelli linguistici assimilare idee e concetti generali da vasti dati testuali su Internet, il modello RT-2 estrae la conoscenza dalle informazioni basate sul web per guidare le azioni robotiche.

Le potenziali implicazioni di ciò sono significative. Se un modello è esposto a una serie curata di traiettorie che essenzialmente indicano "per ottenere un particolare risultato, il meccanismo di presa del robot deve muoversi in un modo specifico", allora è ovvio che il trasformatore potrebbe generare azioni coerenti in linea con questo ingresso.

Un aspetto cruciale oggetto di valutazione è stata la capacità di eseguire nuovi compiti non coperti durante la formazione. Questo può essere testato in alcuni modi distinti:

1) Oggetti sconosciuti: Il modello può replicare un'attività quando viene introdotto su oggetti su cui non è stato addestrato? Il successo in questo aspetto dipende dalla conversione del feed visivo dalla telecamera in un vettore, che il modello linguistico può interpretare. Il modello dovrebbe quindi essere in grado di discernere il suo significato, collegare un termine con la sua controparte reale e successivamente guidare il braccio robotico ad agire di conseguenza.

2) Sfondi diversi: Come risponde il modello quando la maggior parte del feed visivo è costituito da nuovi elementi perché lo sfondo della posizione dell'attività è stato completamente alterato? Ad esempio, un cambiamento nei tavoli o persino uno spostamento delle condizioni di illuminazione.

3) Ambienti vari: Estendendo il punto precedente, cosa succede se l'intera posizione stessa è diversa?

Per gli umani, questi scenari sembrano semplici: naturalmente, se qualcuno può scartare una lattina nella propria stanza, dovrebbe essere in grado di farlo anche all'aperto, giusto? (In una nota a margine, ho osservato alcune persone nei parchi alle prese con questo compito apparentemente semplice). Tuttavia, per i macchinari, queste sono sfide che devono ancora essere affrontate.

I dati grafici rivelano che il modello RT-2 supera alcuni dei suoi predecessori quando si tratta di adattarsi a queste nuove condizioni. Questa superiorità deriva in gran parte dallo sfruttare un modello linguistico espansivo, arricchito dalla pletora di testi che ha elaborato durante la sua fase di formazione.

Un vincolo evidenziato dai ricercatori è l'incapacità del modello di adattarsi a competenze completamente nuove. Ad esempio, non comprenderebbe sollevare un oggetto dal suo lato sinistro o destro se questo non ha fatto parte del suo addestramento. Al contrario, i modelli linguistici come ChatGPT hanno superato questo ostacolo piuttosto senza sforzo. Elaborando grandi quantità di dati attraverso una miriade di attività, questi modelli possono decifrare rapidamente e agire in base a nuove richieste, anche se non le hanno mai incontrate prima.

Tradizionalmente, i robot hanno operato utilizzando combinazioni di sistemi complessi. In queste configurazioni, i sistemi di ragionamento di livello superiore e i sistemi di manipolazione fondamentali spesso interagivano senza una comunicazione efficiente, simile a un gioco di “telefono rotto”. Immagina di concettualizzare un'azione mentalmente, quindi di aver bisogno di trasmetterla al tuo corpo per l'esecuzione. Il nuovo modello RT-2 semplifica questo processo. Consente a un singolo modello linguistico di intraprendere ragionamenti sofisticati inviando al tempo stesso comandi diretti al robot. Dimostra che con dati di addestramento minimi, il robot può svolgere attività che non ha appreso esplicitamente.

Ad esempio, per consentire ai sistemi più vecchi di smaltire i rifiuti, richiedevano una formazione specifica per identificare, raccogliere e smaltire i rifiuti. Al contrario, l'RT-2 possiede già una conoscenza fondamentale dei rifiuti, può riconoscerli senza un addestramento mirato e può smaltirli anche senza istruzioni preliminari sull'azione. Considera la domanda sfumata, "cosa costituisce uno spreco?" Questo è un concetto difficile da formalizzare. Un sacchetto di trucioli o una buccia di banana passa dall'essere un oggetto a un rifiuto post-consumo. Tali complessità non hanno bisogno di spiegazioni esplicite o di una formazione separata; RT-2 li decifra usando la sua comprensione intrinseca e agisce di conseguenza.

Ecco perché questo progresso è fondamentale e le sue implicazioni future:

  • I modelli linguistici, come RT-2, funzionano come motori cognitivi onnicomprensivi. La loro capacità di generalizzare e trasferire la conoscenza tra domini significa che sono adattabili a varie applicazioni.
  • I ricercatori non hanno intenzionalmente utilizzato i modelli più avanzati per il loro studio, con l'obiettivo di garantire che ciascun modello rispondesse entro un secondo (il che significa una frequenza di azione robotica di almeno 1 Hertz). Ipoteticamente, integrando un modello simile GPT-4 e modello visivo superiore potrebbe produrre risultati ancora più convincenti.
  • I dati completi sono ancora scarsi. Tuttavia, si prevede che la transizione dallo stato attuale a un set di dati olistico, che va dalle linee di produzione in fabbrica alle faccende domestiche, richiederà da uno a due anni. Questa è una stima provvisoria, quindi gli esperti del settore possono offrire maggiore precisione. Questo afflusso di dati determinerà inevitabilmente progressi significativi.
  • Sebbene l'RT-2 sia stato sviluppato utilizzando una tecnica specifica, esistono numerosi altri metodi. Il futuro probabilmente riserva un'ulteriore fusione di queste metodologie migliorare le capacità robotiche. Un approccio prospettico potrebbe comportare l'addestramento di robot utilizzando video di attività umane. Non sono necessarie registrazioni esclusive: piattaforme come TikTok e YouTube offrono un vasto archivio di tali contenuti.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
NuLink viene lanciato su Bybit Web3 Piattaforma IDO. La fase di abbonamento si estende fino al 13 maggio
Mercati Notizie Tecnologia
NuLink viene lanciato su Bybit Web3 Piattaforma IDO. La fase di abbonamento si estende fino al 13 maggio
9 Maggio 2024
UXLINK e Binance collaborano a una nuova campagna, offrendo agli utenti 20 milioni di punti UXUY e Airdrop Rewards
Mercati Notizie Tecnologia
UXLINK e Binance collaborano a una nuova campagna, offrendo agli utenti 20 milioni di punti UXUY e Airdrop Rewards
9 Maggio 2024
Side Protocol lancia testnet incentivato e introduce il sistema di punti Insider, consentendo agli utenti di guadagnare punti SIDE
Mercati Notizie Tecnologia
Side Protocol lancia testnet incentivato e introduce il sistema di punti Insider, consentendo agli utenti di guadagnare punti SIDE
9 Maggio 2024
Web3 ed eventi crittografici nel maggio 2024: esplorazione di nuove tecnologie e tendenze emergenti nella blockchain e DeFi
digerire Affari Mercati Tecnologia
Web3 ed eventi crittografici nel maggio 2024: esplorazione di nuove tecnologie e tendenze emergenti nella blockchain e DeFi
9 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.