01 de agosto de 2023

Is GPT-4 ¿A punto de potenciar la robótica? Por qué RT-2 lo cambia todo

Publicado: 01 de agosto de 2023 a las 3:58 am Actualizado: 01 de agosto de 2023 a las 3:58 am

Editado y verificado: 01 de agosto de 2023 a las 3:58 am

En Resumen

Google DeepMind ha desarrollado aplicaciones modelo de visión-lenguaje para control robótico de extremo a extremo, centrándose en su capacidad para generalizar y transferir conocimientos entre dominios.

El modelo RT-2, diseñado para generar secuencias capaces de codificar grandes cantidades de información, ha sido probado en varios escenarios, incluidos objetos desconocidos, diferentes fondos y entornos variados.

El modelo RT-2 supera a algunos de sus predecesores en la adaptación a las nuevas condiciones, en gran parte debido a su modelo de lenguaje expansivo.

Google DeepMind investigó las aplicaciones del modelo de visión-lenguaje, centrándose en su potencial para el control robótico de extremo a extremo. Esta investigación buscó determinar si estos modelos eran capaces de una amplia generalización. Además, investigó si ciertas funciones cognitivas, como el razonamiento y la planificación, que se asocian con frecuencia a los modelos de lenguaje expansivo, podrían emerger en este contexto.

Is GPT-4 ¿A punto de potenciar la robótica? Por qué RT-2 lo cambia todo — Créditos: Metaverse Post / Stable Diffusion

La premisa fundamental detrás de esta exploración está intrínsecamente ligada a las características de los modelos de lenguaje extenso (LLM). Semejante Los modelos están diseñados para generar cualquier secuencia capaz de codificar una amplia gama de información. Esto incluye no solo lenguaje común o código de programación como Python, sino también comandos específicos. que puede guiar acciones robóticas.

Para poner esto en perspectiva, considere la capacidad del modelo para comprender y traducir secuencias de cadenas específicas en comandos robóticos accionables. Como ilustración, una cadena generada como "1 128 91 241 5 101 127 217" se puede decodificar de la siguiente manera:

El dígito inicial, uno, significa que la tarea aún está en curso y no se ha completado.
La siguiente tríada de números, 128-91-241, designa un cambio relativo y normalizado a través de las tres dimensiones del espacio.
El conjunto final, 101-127-217, señala el grado de rotación del segmento funcional del brazo del robot.

Tal configuración habilita el robot modificar su estado a través de seis grados de libertad. Trazando un paralelo, al igual que modelos de lenguaje asimilar ideas y conceptos generales de una gran cantidad de datos textuales en Internet, el modelo RT-2 extrae conocimiento de la información basada en la web para guiar las acciones robóticas.

Las implicaciones potenciales de esto son significativas. Si un modelo se expone a un conjunto seleccionado de trayectorias que esencialmente indican, "para lograr un resultado particular, el mecanismo de agarre del robot necesita moverse de una manera específica", entonces es lógico que el transformador pueda generar acciones coherentes en línea con esta entrada.

Un aspecto crucial bajo evaluación fue la capacidad de ejecutar tareas novedosas no cubiertas durante el entrenamiento. Esto se puede probar de varias maneras distintas:

1) Objetos desconocidos: ¿Puede el modelo replicar una tarea cuando se le presentan objetos en los que no ha sido entrenado? El éxito en este aspecto depende de convertir la transmisión visual de la cámara en un vector, que el modelo de lenguaje pueda interpretar. Luego, el modelo debería poder discernir su significado, vincular un término con su contraparte del mundo real y, posteriormente, guiar al brazo robótico para que actúe en consecuencia.

2) Diferentes antecedentes: ¿Cómo responde el modelo cuando la mayor parte de la información visual consiste en elementos nuevos porque el telón de fondo de la ubicación de la tarea se ha alterado por completo? Por ejemplo, un cambio en las mesas o incluso un cambio en las condiciones de iluminación.

3) Ambientes Variados: Ampliando el punto anterior, ¿qué pasa si toda la ubicación en sí es diferente?

Para los humanos, estos escenarios parecen sencillos: naturalmente, si alguien puede desechar una lata en su habitación, también debería poder hacerlo al aire libre, ¿verdad? (En una nota al margen, he observado a algunas personas en los parques que luchan con esta tarea aparentemente simple). Sin embargo, para la maquinaria, estos son desafíos que aún deben abordarse.

Los datos gráficos revelan que el modelo RT-2 supera a algunos de sus predecesores cuando se trata de adaptarse a estas nuevas condiciones. Esta superioridad se deriva en gran medida del aprovechamiento de un modelo de lenguaje expansivo, enriquecido por la plétora de textos que ha procesado durante su fase de entrenamiento.

Una limitación destacada por los investigadores es la incapacidad del modelo para adaptarse a habilidades completamente nuevas. Por ejemplo, no comprendería levantar un objeto de su lado izquierdo o derecho si esto no ha sido parte de su entrenamiento. Por el contrario, los modelos de lenguaje como ChatGPT han superado este obstáculo sin esfuerzo. Al procesar grandes cantidades de datos en una miríada de tareas, estos modelos pueden descifrar y actuar rápidamente sobre nuevas solicitudes, incluso si nunca las han encontrado antes.

Tradicionalmente, los robots han operado usando combinaciones de sistemas intrincados. En estas configuraciones, los sistemas de razonamiento de alto nivel y los sistemas de manipulación fundamentales a menudo interactuaban sin una comunicación eficiente. similar a jugar un juego de "teléfono roto". Imagine conceptualizar una acción mentalmente y luego necesitar transmitirla a su cuerpo para que la ejecute. El modelo RT-2 recientemente presentado agiliza este proceso. Habilita un modelo de lenguaje único para llevar a cabo un razonamiento sofisticado al mismo tiempo que envía comandos directos al robot. Demuestra que con datos de entrenamiento mínimos, el robot puede realizar actividades que no ha aprendido explícitamente.

Por ejemplo, para permitir que los sistemas más antiguos desechen los desechos, requerían capacitación específica para identificar, recoger y eliminar la basura. Por el contrario, el RT-2 ya posee una comprensión fundamental de los desechos, puede reconocerlos sin capacitación específica y puede eliminarlos incluso sin instrucciones previas sobre la acción. Considere la pregunta matizada, "¿qué constituye desperdicio?" Este es un concepto difícil de formalizar. Una bolsa de papas fritas o una cáscara de plátano pasan de ser un artículo a un desecho posterior al consumo. Tales complejidades no necesitan una explicación explícita o entrenamiento por separado; RT-2 los descifra usando su comprensión inherente y actúa en consecuencia.

He aquí por qué este avance es fundamental y sus implicaciones futuras:

Los modelos de lenguaje, como RT-2, funcionan como motores cognitivos que lo abarcan todo. Su capacidad para generalizar y transferir conocimientos entre dominios significa que son adaptables a diversas aplicaciones.
Los investigadores no emplearon intencionalmente los modelos más avanzados para su estudio, con el objetivo de garantizar que cada modelo respondiera en un segundo (lo que significa una frecuencia de acción robótica de al menos 1 Hertz). Hipotéticamente, integrar un modelo como GPT-4 y modelo visual superior podría arrojar resultados aún más convincentes.
Los datos completos aún son escasos. Sin embargo, se prevé que la transición del estado actual a un conjunto de datos holístico, que va desde las líneas de producción de la fábrica hasta las tareas domésticas, lleve entre uno y dos años. Esta es una estimación tentativa, por lo que los expertos en el campo pueden ofrecer más precisión. Esta afluencia de datos inevitablemente impulsará avances significativos.
Si bien el RT-2 se desarrolló utilizando una técnica específica, existen muchos otros métodos. El futuro probablemente depara una fusión de estas metodologías, además mejorar las capacidades robóticas. Un enfoque prospectivo podría implicar el entrenamiento de robots utilizando videos de actividades humanas. No hay necesidad de grabaciones exclusivas: plataformas como TikTok y YouTube ofrecen un amplio repositorio de dicho contenido.

Lea más sobre la IA:

Tags:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.

Más artículos

Damir Yalalov

Hot Stories

NuLink se lanza en Bybit Web3 Plataforma IDO. Fase de suscripción se extiende hasta el 13 de mayo

by alisa davidson

09 de mayo de 2024

UXLINK y Binance colaboran en una nueva campaña que ofrece a los usuarios 20 millones de puntos UXUY y Airdrop Recompensas

by alisa davidson

09 de mayo de 2024

Side Protocol lanza Testnet incentivado e introduce el sistema de puntos internos, lo que permite a los usuarios ganar puntos SIDE

by alisa davidson

09 de mayo de 2024

Web3 y eventos criptográficos en mayo de 2024: exploración de nuevas tecnologías y tendencias emergentes en blockchain y DeFi

by Viktoriia Palchik

09 de mayo de 2024

Últimas Noticias

NuLink se lanza en Bybit Web3 Plataforma IDO. Fase de suscripción se extiende hasta el 13 de mayo

by alisa davidson

09 de mayo de 2024

UXLINK y Binance colaboran en una nueva campaña que ofrece a los usuarios 20 millones de puntos UXUY y Airdrop Recompensas

by alisa davidson

09 de mayo de 2024

Side Protocol lanza Testnet incentivado e introduce el sistema de puntos internos, lo que permite a los usuarios ganar puntos SIDE

by alisa davidson

09 de mayo de 2024

Web3 y eventos criptográficos en mayo de 2024: exploración de nuevas tecnologías y tendencias emergentes en blockchain y DeFi

by Viktoriia Palchik

09 de mayo de 2024

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más