Meta AI desarrolla un algoritmo que permite a los robots aprender tareas de los videos de YouTube
En Resumen
Los investigadores han desarrollado un modelo de rendimiento visual utilizando videos de Internet del comportamiento humano para entrenar a los robots para que realicen tareas complejas.
Este enfoque cierra la brecha entre los conjuntos de datos estáticos y las aplicaciones robóticas del mundo real.
Los investigadores utilizan conjuntos de datos de video humanos a gran escala como Ego4D y Epic Kitchens para extraer posibilidades, integrando técnicas de visión por computadora con manipulación robótica.
El concepto Vision-Robotics Bridge (VRB) muestra el potencial de este enfoque, permitiendo que los robots aprendan de los videos humanos y adquieran las habilidades necesarias para tareas complejas.
Meta AI presentó un nuevo algoritmo que permite que los robots aprendan y repliquen las acciones humanas al mirar videos de YouTube. En un artículo reciente titulado “Prestaciones de videos humanos como una representación versátil para la robótica”, los autores exploran cómo se pueden aprovechar los videos de interacciones humanas para entrenar a los robots para que realicen tareas complejas.
Esta investigación tiene como objetivo cerrar la brecha entre los conjuntos de datos estáticos y las aplicaciones de robots del mundo real. Si bien los modelos anteriores han tenido éxito en conjuntos de datos estáticos, la aplicación de estos modelos directamente a los robots sigue siendo un desafío. Los investigadores proponen que entrenar un modelo de rendimiento visual utilizando videos de Internet del comportamiento humano podría ser una solución. Este modelo estima dónde y cómo es probable que un humano interactúe en una escena, proporcionando información valiosa para los robots.
El concepto de “prestaciones” es fundamental para este enfoque. Las prestaciones se refieren a las acciones o interacciones potenciales que ofrece un objeto o entorno. Al comprender las posibilidades a través de videos humanos, el robot obtiene una representación versátil que le permite realizar varias tareas complejas. Los investigadores integran su modelo de rendimiento con cuatro paradigmas de aprendizaje de robots diferentes: aprendizaje de imitación fuera de línea, exploración, aprendizaje condicionado por objetivos y parametrización de acciones para aprendizaje reforzado.
Para extraer posibilidades, los investigadores utilizan conjuntos de datos de video humanos a gran escala como ego4d y Cocinas épicas. Emplean detectores de interacción mano-objeto listos para usar para identificar la región de contacto y rastrear la trayectoria de la muñeca después del contacto. Sin embargo, surge un desafío importante cuando el ser humano sigue presente en la escena, provocando un cambio de distribución. Para abordar esto, los investigadores utilizan la información de la cámara disponible para proyectar los puntos de contacto y la trayectoria posterior al contacto en un marco agnóstico humano, que sirve como entrada para su modelo.
Anteriormente, los robots eran capaces de imitar acciones, pero sus habilidades se limitaban a replicar entornos específicos. Con el último algoritmo, los investigadores han logrado avances significativos en la "generalización" de las acciones de los robots. Los robots ahora pueden aplicar sus conocimientos adquiridos en entornos nuevos y desconocidos. Este logro se alinea con la visión de lograr la Inteligencia General Artificial (AGI) como defiende el investigador de IA Jan Le Cun.
| Recomendado: GPT-4 ¿Resuelve las preguntas del examen MIT con 100% de precisión? No es cierto, dicen los investigadores |
Meta AI está comprometida con el avance en el campo de la visión por computadora y planea compartir el código y el conjunto de datos de su proyecto. Esto permitirá que otros investigadores y desarrolladores exploren y desarrollen más a fondo esta tecnología. Con un mayor acceso al código y al conjunto de datos, el desarrollo de robots de autoaprendizaje capaces de adquirir nuevas habilidades de Videos de Youtube seguirá progresando.
Al aprovechar la gran cantidad de videos instructivos en línea, los robots pueden volverse más versátiles y adaptables en diversos entornos.
Lea más sobre la IA:
Renuncia de responsabilidad:
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre la autora
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículos
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.