Is GPT-4 A punt de sobrealimentar la robòtica? Per què RT-2 ho canvia tot
En breu
Google DeepMind ha desenvolupat aplicacions de models de llenguatge de visió per control robòtic d'extrem a extrem, centrant-se en la seva capacitat per generalitzar i transferir coneixement entre dominis.
El model RT-2, dissenyat per generar seqüències capaços de codificar grans quantitats d'informació, s'ha provat en diversos escenaris, inclosos objectes desconeguts, diferents fons i entorns variats.
El model RT-2 supera alguns dels seus predecessors en l'adaptació a les noves condicions, en gran part a causa del seu model de llenguatge expansiu.
Google DeepMind va investigar aplicacions de models de llenguatge de visió, centrant-se en el seu potencial per al control robòtic d'extrem a extrem. Aquesta investigació pretenia determinar si aquests models eren capaços d'una generalització àmplia. A més, va investigar si determinades funcions cognitives, com ara el raonament i la planificació, que sovint s'associen amb models de llenguatge expansius, podrien sorgir en aquest context.
La premissa fonamental darrere d'aquesta exploració està intrínsecament lligada a les característiques dels grans models lingüístics (LLM). Així models estan dissenyats per generar qualsevol seqüència capaç de codificar una àmplia gamma d'informació. Això inclou no només llenguatge comú o codi de programació com Python, sinó també ordres específiques que poden guiar les accions robòtiques.
Per posar-ho en perspectiva, tingueu en compte la capacitat del model per entendre i traduir seqüències de cordes específiques en ordres robòtiques accionables. Com a il·lustració, una cadena generada com ara "1 128 91 241 5 101 127 217" es pot descodificar de la manera següent:
- El dígit inicial, un, significa que la tasca encara està en curs i no s'ha completat.
- La tríada de nombres posterior, 128-91-241, designa un desplaçament relatiu i normalitzat a través de les tres dimensions de l'espai.
- El conjunt final, 101-127-217, indica el grau de rotació del segment funcional del braç del robot.
Una configuració així activa el robot modificar el seu estat en sis graus de llibertat. Fent un paral·lel, igual que models lingüístics assimilant idees i conceptes generals a partir de grans dades textuals a Internet, el model RT-2 extreu coneixement de la informació basada en web per guiar les accions robòtiques.
Les possibles implicacions d'això són importants. Si un model s'exposa a un conjunt de trajectòries seleccionades que indiquen essencialment, "per aconseguir un resultat particular, el mecanisme de presa del robot ha de moure's d'una manera específica", aleshores és raonable que el transformador pugui generar accions coherents d'acord amb aquesta entrada.
Un aspecte crucial en avaluació va ser la capacitat de fer executar tasques noves no cobertes durant la formació. Això es pot provar de diverses maneres diferents:
1) Objectes desconeguts: pot el model replicar una tasca quan s'introdueix a objectes sobre els quals no s'ha entrenat? L'èxit en aquest aspecte depèn de convertir el flux visual de la càmera en un vector, que el model de llenguatge pot interpretar. Aleshores, el model hauria de ser capaç de discernir el seu significat, enllaçar un terme amb el seu homòleg del món real i, posteriorment, guiar el braç robòtic perquè actuï en conseqüència.
2) Diferents antecedents: Com respon el model quan la majoria del flux visual consta d'elements nous perquè el fons de la ubicació de la tasca s'ha alterat completament? Per exemple, un canvi en les taules o fins i tot un canvi en les condicions d'il·luminació.
3) Ambients variats: Ampliant el punt anterior, què passa si tota la ubicació és diferent?
Per als humans, aquests escenaris semblen senzills: naturalment, si algú pot llençar una llauna a la seva habitació, també hauria de poder fer-ho a l'aire lliure, oi? (En una nota lateral, he observat algunes persones als parcs que lluiten amb aquesta tasca aparentment senzilla). Tanmateix, per a la maquinària, aquests són reptes que encara s'han d'abordar.
Les dades gràfiques revelen que el model RT-2 supera alguns dels seus predecessors quan es tracta d'adaptar-se a aquestes noves condicions. Aquesta superioritat prové, en gran part, de l'aprofitament d'un model lingüístic expansiu, enriquit per la gran quantitat de textos que ha processat durant la seva fase de formació.
Una limitació destacada pels investigadors és la incapacitat del model per adaptar-se a habilitats completament noves. Per exemple, no comprendria aixecar un objecte des del seu costat esquerre o dret si això no ha estat part del seu entrenament. En canvi, els models lingüístics com ChatGPT han superat aquest obstacle sense esforç. Mitjançant el processament de grans quantitats de dades en una infinitat de tasques, aquests models poden desxifrar i actuar ràpidament sobre noves sol·licituds, fins i tot si mai no les havien trobat abans.
Tradicionalment, els robots han funcionat utilitzant combinacions de sistemes complexos. En aquestes configuracions, els sistemes de raonament de nivell superior i els sistemes de manipulació fonamentals sovint interactuaven sense una comunicació eficient, semblant a jugar un joc de "telèfon trencat". Imagineu-vos conceptualitzar una acció mentalment i després haver de transmetre-la al vostre cos per a la seva execució. El model RT-2 recentment introduït simplifica aquest procés. Potencia un model de llenguatge únic per dur a terme un raonament sofisticat alhora que envia ordres directes al robot. Demostra que amb dades d'entrenament mínimes, el robot pot dur a terme activitats que no ha après explícitament.
Per exemple, per permetre als sistemes antics llençar els residus, necessitaven una formació específica per identificar, recollir i eliminar les escombraries. En canvi, l'RT-2 ja té una comprensió fonamental dels residus, pot reconèixer-los sense formació específica i pot eliminar-los fins i tot sense instruccions prèvies sobre l'acció. Penseu en la pregunta matisada, "què constitueix el residu?" Aquest és un concepte difícil de formalitzar. Una bossa de xips o pell de plàtan passa de ser un article a residu després del consum. Aquests complexos no necessiten una explicació explícita ni una formació separada; RT-2 els desxifra utilitzant la seva comprensió inherent i actua en conseqüència.
Heus aquí per què aquest avenç és fonamental i les seves implicacions futures:
- Els models de llenguatge, com RT-2, funcionen com a motors cognitius globals. La seva capacitat per generalitzar i transferir coneixement entre dominis fa que siguin adaptables a aplicacions variades.
- Els investigadors no van utilitzar intencionadament els models més avançats per al seu estudi, amb l'objectiu de garantir que cada model respongués en un segon (és a dir, una freqüència d'acció robòtica d'almenys 1 hertz). Hipotèticament, integrant un model com GPT-4 I a model visual superior podria donar resultats encara més convincents.
- Les dades exhaustives encara són escasses. Tanmateix, es preveu que la transició de l'estat actual a un conjunt de dades holístic, que va des de línies de producció de fàbriques fins a tasques domèstiques, trigui entre un i dos anys. Aquesta és una estimació provisional, de manera que els experts en la matèria poden oferir més precisió. Aquesta afluència de dades impulsarà inevitablement avenços significatius.
- Tot i que l'RT-2 es va desenvolupar mitjançant una tècnica específica, existeixen molts altres mètodes. El futur probablement contingui una fusió d'aquestes metodologies, encara més Millorar les capacitats robòtiques. Un enfocament prospectiu podria implicar entrenar robots mitjançant vídeos d'activitats humanes. No calen enregistraments exclusius: plataformes com TikTok i YouTube ofereixen un ampli repositori d'aquest contingut.
Llegeix més sobre AI:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.