Anàlisi Tecnologia
Agost 01, 2023

Is GPT-4 A punt de sobrealimentar la robòtica? Per què RT-2 ho canvia tot

En breu

Google DeepMind ha desenvolupat aplicacions de models de llenguatge de visió per control robòtic d'extrem a extrem, centrant-se en la seva capacitat per generalitzar i transferir coneixement entre dominis.

El model RT-2, dissenyat per generar seqüències capaços de codificar grans quantitats d'informació, s'ha provat en diversos escenaris, inclosos objectes desconeguts, diferents fons i entorns variats.

El model RT-2 supera alguns dels seus predecessors en l'adaptació a les noves condicions, en gran part a causa del seu model de llenguatge expansiu.

Google DeepMind va investigar aplicacions de models de llenguatge de visió, centrant-se en el seu potencial per al control robòtic d'extrem a extrem. Aquesta investigació pretenia determinar si aquests models eren capaços d'una generalització àmplia. A més, va investigar si determinades funcions cognitives, com ara el raonament i la planificació, que sovint s'associen amb models de llenguatge expansius, podrien sorgir en aquest context.

Is GPT-4 A punt de sobrealimentar la robòtica? Per què RT-2 ho canvia tot
Crèdit: Metaverse Post / Stable Diffusion

La premissa fonamental darrere d'aquesta exploració està intrínsecament lligada a les característiques dels grans models lingüístics (LLM). Així models estan dissenyats per generar qualsevol seqüència capaç de codificar una àmplia gamma d'informació. Això inclou no només llenguatge comú o codi de programació com Python, sinó també ordres específiques que poden guiar les accions robòtiques.

Per posar-ho en perspectiva, tingueu en compte la capacitat del model per entendre i traduir seqüències de cordes específiques en ordres robòtiques accionables. Com a il·lustració, una cadena generada com ara "1 128 91 241 5 101 127 217" es pot descodificar de la manera següent:

  • El dígit inicial, un, significa que la tasca encara està en curs i no s'ha completat.
  • La tríada de nombres posterior, 128-91-241, designa un desplaçament relatiu i normalitzat a través de les tres dimensions de l'espai.
  • El conjunt final, 101-127-217, indica el grau de rotació del segment funcional del braç del robot.

Una configuració així activa el robot modificar el seu estat en sis graus de llibertat. Fent un paral·lel, igual que models lingüístics assimilant idees i conceptes generals a partir de grans dades textuals a Internet, el model RT-2 extreu coneixement de la informació basada en web per guiar les accions robòtiques.

Les possibles implicacions d'això són importants. Si un model s'exposa a un conjunt de trajectòries seleccionades que indiquen essencialment, "per aconseguir un resultat particular, el mecanisme de presa del robot ha de moure's d'una manera específica", aleshores és raonable que el transformador pugui generar accions coherents d'acord amb aquesta entrada.

Un aspecte crucial en avaluació va ser la capacitat de fer executar tasques noves no cobertes durant la formació. Això es pot provar de diverses maneres diferents:

1) Objectes desconeguts: pot el model replicar una tasca quan s'introdueix a objectes sobre els quals no s'ha entrenat? L'èxit en aquest aspecte depèn de convertir el flux visual de la càmera en un vector, que el model de llenguatge pot interpretar. Aleshores, el model hauria de ser capaç de discernir el seu significat, enllaçar un terme amb el seu homòleg del món real i, posteriorment, guiar el braç robòtic perquè actuï en conseqüència.

2) Diferents antecedents: Com respon el model quan la majoria del flux visual consta d'elements nous perquè el fons de la ubicació de la tasca s'ha alterat completament? Per exemple, un canvi en les taules o fins i tot un canvi en les condicions d'il·luminació.

3) Ambients variats: Ampliant el punt anterior, què passa si tota la ubicació és diferent?

Per als humans, aquests escenaris semblen senzills: naturalment, si algú pot llençar una llauna a la seva habitació, també hauria de poder fer-ho a l'aire lliure, oi? (En una nota lateral, he observat algunes persones als parcs que lluiten amb aquesta tasca aparentment senzilla). Tanmateix, per a la maquinària, aquests són reptes que encara s'han d'abordar.

Les dades gràfiques revelen que el model RT-2 supera alguns dels seus predecessors quan es tracta d'adaptar-se a aquestes noves condicions. Aquesta superioritat prové, en gran part, de l'aprofitament d'un model lingüístic expansiu, enriquit per la gran quantitat de textos que ha processat durant la seva fase de formació.

Una limitació destacada pels investigadors és la incapacitat del model per adaptar-se a habilitats completament noves. Per exemple, no comprendria aixecar un objecte des del seu costat esquerre o dret si això no ha estat part del seu entrenament. En canvi, els models lingüístics com ChatGPT han superat aquest obstacle sense esforç. Mitjançant el processament de grans quantitats de dades en una infinitat de tasques, aquests models poden desxifrar i actuar ràpidament sobre noves sol·licituds, fins i tot si mai no les havien trobat abans.

Tradicionalment, els robots han funcionat utilitzant combinacions de sistemes complexos. En aquestes configuracions, els sistemes de raonament de nivell superior i els sistemes de manipulació fonamentals sovint interactuaven sense una comunicació eficient, semblant a jugar un joc de "telèfon trencat". Imagineu-vos conceptualitzar una acció mentalment i després haver de transmetre-la al vostre cos per a la seva execució. El model RT-2 recentment introduït simplifica aquest procés. Potencia un model de llenguatge únic per dur a terme un raonament sofisticat alhora que envia ordres directes al robot. Demostra que amb dades d'entrenament mínimes, el robot pot dur a terme activitats que no ha après explícitament.

Per exemple, per permetre als sistemes antics llençar els residus, necessitaven una formació específica per identificar, recollir i eliminar les escombraries. En canvi, l'RT-2 ja té una comprensió fonamental dels residus, pot reconèixer-los sense formació específica i pot eliminar-los fins i tot sense instruccions prèvies sobre l'acció. Penseu en la pregunta matisada, "què constitueix el residu?" Aquest és un concepte difícil de formalitzar. Una bossa de xips o pell de plàtan passa de ser un article a residu després del consum. Aquests complexos no necessiten una explicació explícita ni una formació separada; RT-2 els desxifra utilitzant la seva comprensió inherent i actua en conseqüència.

Heus aquí per què aquest avenç és fonamental i les seves implicacions futures:

  • Els models de llenguatge, com RT-2, funcionen com a motors cognitius globals. La seva capacitat per generalitzar i transferir coneixement entre dominis fa que siguin adaptables a aplicacions variades.
  • Els investigadors no van utilitzar intencionadament els models més avançats per al seu estudi, amb l'objectiu de garantir que cada model respongués en un segon (és a dir, una freqüència d'acció robòtica d'almenys 1 hertz). Hipotèticament, integrant un model com GPT-4 I a model visual superior podria donar resultats encara més convincents.
  • Les dades exhaustives encara són escasses. Tanmateix, es preveu que la transició de l'estat actual a un conjunt de dades holístic, que va des de línies de producció de fàbriques fins a tasques domèstiques, trigui entre un i dos anys. Aquesta és una estimació provisional, de manera que els experts en la matèria poden oferir més precisió. Aquesta afluència de dades impulsarà inevitablement avenços significatius.
  • Tot i que l'RT-2 es va desenvolupar mitjançant una tècnica específica, existeixen molts altres mètodes. El futur probablement contingui una fusió d'aquestes metodologies, encara més Millorar les capacitats robòtiques. Un enfocament prospectiu podria implicar entrenar robots mitjançant vídeos d'activitats humanes. No calen enregistraments exclusius: plataformes com TikTok i YouTube ofereixen un ampli repositori d'aquest contingut.

Llegeix més sobre AI:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
NuLink es llança a Bybit Web3 Plataforma IDO. La fase de subscripció s'estén fins al 13 de maig
mercats Informe de notícies Tecnologia
NuLink es llança a Bybit Web3 Plataforma IDO. La fase de subscripció s'estén fins al 13 de maig
Pot 9, 2024
UXLINK i Binance col·laboren en una nova campanya, oferint als usuaris 20 milions de punts UXUY i Airdrop Recompenses
mercats Informe de notícies Tecnologia
UXLINK i Binance col·laboren en una nova campanya, oferint als usuaris 20 milions de punts UXUY i Airdrop Recompenses
Pot 9, 2024
Side Protocol llança una xarxa de proves incentivada i presenta un sistema de punts d'Insider, que permet als usuaris guanyar punts SIDE
mercats Informe de notícies Tecnologia
Side Protocol llança una xarxa de proves incentivada i presenta un sistema de punts d'Insider, que permet als usuaris guanyar punts SIDE
Pot 9, 2024
Web3 i Esdeveniments Crypto al maig de 2024: explorant noves tecnologies i tendències emergents en Blockchain i DeFi
Resum Negocis mercats Tecnologia
Web3 i Esdeveniments Crypto al maig de 2024: explorant noves tecnologies i tendències emergents en Blockchain i DeFi
Pot 9, 2024
CRYPTOMERIA LABS PTE. LTD.