Informe de noticias SMW Ecológica
26 de Junio de 2023

Meta AI desarrolla un algoritmo que permite a los robots aprender tareas de los videos de YouTube

En Resumen

Los investigadores han desarrollado un modelo de rendimiento visual utilizando videos de Internet del comportamiento humano para entrenar a los robots para que realicen tareas complejas.

Este enfoque cierra la brecha entre los conjuntos de datos estáticos y las aplicaciones robóticas del mundo real.

Los investigadores utilizan conjuntos de datos de video humanos a gran escala como Ego4D y Epic Kitchens para extraer posibilidades, integrando técnicas de visión por computadora con manipulación robótica.

El concepto Vision-Robotics Bridge (VRB) muestra el potencial de este enfoque, permitiendo que los robots aprendan de los videos humanos y adquieran las habilidades necesarias para tareas complejas.

Meta AI presentó un nuevo algoritmo que permite que los robots aprendan y repliquen las acciones humanas al mirar videos de YouTube. En un artículo reciente titulado “Prestaciones de videos humanos como una representación versátil para la robótica”, los autores exploran cómo se pueden aprovechar los videos de interacciones humanas para entrenar a los robots para que realicen tareas complejas.

Meta AI desarrolla un algoritmo que permite a los robots aprender tareas de los videos de YouTube
Créditos: Metaverse Post (mpost.io)

Esta investigación tiene como objetivo cerrar la brecha entre los conjuntos de datos estáticos y las aplicaciones de robots del mundo real. Si bien los modelos anteriores han tenido éxito en conjuntos de datos estáticos, la aplicación de estos modelos directamente a los robots sigue siendo un desafío. Los investigadores proponen que entrenar un modelo de rendimiento visual utilizando videos de Internet del comportamiento humano podría ser una solución. Este modelo estima dónde y cómo es probable que un humano interactúe en una escena, proporcionando información valiosa para los robots.

El concepto de “prestaciones” es fundamental para este enfoque. Las prestaciones se refieren a las acciones o interacciones potenciales que ofrece un objeto o entorno. Al comprender las posibilidades a través de videos humanos, el robot obtiene una representación versátil que le permite realizar varias tareas complejas. Los investigadores integran su modelo de rendimiento con cuatro paradigmas de aprendizaje de robots diferentes: aprendizaje de imitación fuera de línea, exploración, aprendizaje condicionado por objetivos y parametrización de acciones para aprendizaje reforzado.

Recomendado: Más de 100 palabras detectables por detectores de IA en 2023

Para extraer posibilidades, los investigadores utilizan conjuntos de datos de video humanos a gran escala como ego4d y Cocinas épicas. Emplean detectores de interacción mano-objeto listos para usar para identificar la región de contacto y rastrear la trayectoria de la muñeca después del contacto. Sin embargo, surge un desafío importante cuando el ser humano sigue presente en la escena, provocando un cambio de distribución. Para abordar esto, los investigadores utilizan la información de la cámara disponible para proyectar los puntos de contacto y la trayectoria posterior al contacto en un marco agnóstico humano, que sirve como entrada para su modelo.

Anteriormente, los robots eran capaces de imitar acciones, pero sus habilidades se limitaban a replicar entornos específicos. Con el último algoritmo, los investigadores han logrado avances significativos en la "generalización" de las acciones de los robots. Los robots ahora pueden aplicar sus conocimientos adquiridos en entornos nuevos y desconocidos. Este logro se alinea con la visión de lograr la Inteligencia General Artificial (AGI) como defiende el investigador de IA Jan Le Cun.

Recomendado: GPT-4 ¿Resuelve las preguntas del examen MIT con 100% de precisión? No es cierto, dicen los investigadores
El modelo toma el marco humano-agnóstico como entrada y produce dos salidas clave
El modelo toma el marco agnóstico humano como entrada y produce dos salidas clave: un mapa de calor de contacto y puntos de referencia de muñeca. El mapa de calor de contacto indica los posibles puntos de contacto, mientras que los puntos de ruta de la muñeca predicen la trayectoria después del contacto. Estas salidas se pueden usar directamente durante el tiempo de inferencia, aprovechando la escasa información 3D, como la profundidad y la cinemática del robot. / Crédito: robo-affordances.github.io

Meta AI está comprometida con el avance en el campo de la visión por computadora y planea compartir el código y el conjunto de datos de su proyecto. Esto permitirá que otros investigadores y desarrolladores exploren y desarrollen más a fondo esta tecnología. Con un mayor acceso al código y al conjunto de datos, el desarrollo de robots de autoaprendizaje capaces de adquirir nuevas habilidades de Videos de Youtube seguirá progresando.

El modelo toma el marco humano-agnóstico como entrada y produce dos salidas clave
Para evaluar la eficacia de su enfoque, los investigadores realizaron experimentos en cuatro entornos del mundo real con diez tareas diferentes y dos plataformas robóticas que operan en la naturaleza. Los resultados demostraron la perfecta integración de tecnicas de vision por computadora con manipulación robótica, mostrando el potencial de su concepto Vision-Robotics Bridge (VRB). / Crédito: robo-affordances.github.io

Al aprovechar la gran cantidad de videos instructivos en línea, los robots pueden volverse más versátiles y adaptables en diversos entornos.

Lea más sobre la IA:

Renuncia de responsabilidad:

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre la autora

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Hot Stories
Suscríbase a nuestro boletín.
Últimas Noticias

La calma antes de la tormenta de Solana: Qué dicen ahora los gráficos, las ballenas y las señales en cadena

Solana ha demostrado un sólido desempeño, impulsado por una creciente adopción, interés institucional y asociaciones clave, al tiempo que enfrenta potenciales...

Para saber más

Criptomonedas en abril de 2025: tendencias clave, cambios y futuro

En abril de 2025, el espacio criptográfico se centró en fortalecer la infraestructura central, con Ethereum preparándose para Pectra...

Para saber más
Leer más
Leer más
Tether anuncia una inversión estratégica en la red t-0 para impulsar la infraestructura de pagos impulsada por USD₮
Informe de noticias Ecológica
Tether anuncia una inversión estratégica en la red t-0 para impulsar la infraestructura de pagos impulsada por USD₮
Febrero 6, 2026
La tarjeta BitMart amplía su alcance global a más de 115 países y presenta beneficios para 2026 con hasta un 5.5 % de reembolso y más de $300 en recompensas anuales.
Informe de noticias
La tarjeta BitMart amplía su alcance global a más de 115 países y presenta beneficios para 2026 con hasta un 5.5 % de reembolso y más de $300 en recompensas anuales.
Febrero 6, 2026
Roblox presenta la generación 4D con Cube AI, que permite a los creadores crear objetos interactivos a partir de indicaciones de texto.
Informe de noticias Ecológica
Roblox presenta la generación 4D con Cube AI, que permite a los creadores crear objetos interactivos a partir de indicaciones de texto.
Febrero 6, 2026
OpenAILa frontera de 's para integrar agentes de IA en flujos de trabajo empresariales complejos para equipos empresariales
Informe de noticias Ecológica
OpenAILa frontera de 's para integrar agentes de IA en flujos de trabajo empresariales complejos para equipos empresariales
Febrero 6, 2026
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.