Meta AI desenvolve um algoritmo que permite que robôs aprendam tarefas a partir de vídeos do YouTube
Em Breve
Pesquisadores desenvolveram um modelo de recursos visuais usando vídeos da Internet de comportamento humano para treinar robôs para realizar tarefas complexas.
Essa abordagem preenche a lacuna entre conjuntos de dados estáticos e aplicativos de robôs do mundo real.
Os pesquisadores usam conjuntos de dados de vídeo humano em grande escala, como Ego4D e Epic Kitchens, para extrair recursos, integrando técnicas de visão computacional com manipulação robótica.
O conceito Vision-Robotics Bridge (VRB) mostra o potencial dessa abordagem, permitindo que os robôs aprendam com vídeos humanos e adquiram as habilidades necessárias para tarefas complexas.
A Meta AI revelou um novo algoritmo que permite que robôs aprendam e repliquem ações humanas assistindo a vídeos do YouTube. Em um artigo recente intitulado “Recursos de vídeos humanos como representação versátil para robótica”, os autores exploram como vídeos de interações humanas podem ser aproveitados para treinar robôs para realizar tarefas complexas.
Esta pesquisa visa preencher a lacuna entre conjuntos de dados estáticos e aplicações de robôs do mundo real. Embora os modelos anteriores tenham mostrado sucesso em conjuntos de dados estáticos, a aplicação desses modelos diretamente aos robôs continua sendo um desafio. Os pesquisadores propõem que o treinamento de um modelo de recursos visuais usando vídeos da Internet sobre o comportamento humano possa ser uma solução. Este modelo estima onde e como é provável que um humano interaja em uma cena, fornecendo informações valiosas para os robôs.
O conceito de “affordances” é central para esta abordagem. Affordances referem-se às ações ou interações potenciais que um objeto ou ambiente oferece. Ao compreender as funcionalidades por meio de vídeos humanos, o robô ganha uma representação versátil que o capacita a realizar diversas tarefas complexas. Os pesquisadores integram seu modelo de recursos com quatro paradigmas diferentes de aprendizado de robôs: aprendizado de imitação offline, exploração, aprendizado condicionado a objetivos e parametrização de ação para aprendizagem de reforço.
Para extrair recursos, os pesquisadores utilizam conjuntos de dados de vídeo humano em grande escala, como Ego4D e cozinhas épicas. Eles empregam detectores de interação mão-objeto disponíveis no mercado para identificar a região de contato e rastrear a trajetória do pulso após o contato. No entanto, um desafio importante surge quando o humano ainda está presente na cena, causando uma mudança na distribuição. Para resolver isso, os pesquisadores usam as informações disponíveis da câmera para projetar os pontos de contato e a trajetória pós-contato em um quadro humano agnóstico, que serve como entrada para o modelo.
Anteriormente, os robôs eram capazes de imitar ações, mas suas habilidades se limitavam a replicar ambientes específicos. Com o algoritmo mais recente, os pesquisadores fizeram progressos significativos na “generalização” das ações dos robôs. Os robôs agora podem aplicar seus conhecimentos adquiridos em ambientes novos e desconhecidos. Essa conquista se alinha com a visão de alcançar a Inteligência Artificial Geral (AGI) conforme defendido pelo pesquisador de IA Jan LeCun.
Recomendado: GPT-4 Resolve questões do exame MIT com 100% de precisão? Não é verdade, dizem os pesquisadores |
A Meta AI está empenhada em avançar no campo da visão computacional e planeja compartilhar o código e o conjunto de dados de seu projeto. Isso permitirá que outros pesquisadores e desenvolvedores explorem e desenvolvam essa tecnologia. Com maior acesso ao código e conjunto de dados, o desenvolvimento de robôs de autoaprendizagem capazes de adquirir novas habilidades de Vídeos do YouTube continuará progredindo.
Ao aproveitar a grande quantidade de vídeos instrutivos online, os robôs podem se tornar mais versáteis e adaptáveis em vários ambientes.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.