Relatório de notícias SMW Tecnologia
26 de Junho de 2023

Meta AI desenvolve um algoritmo que permite que robôs aprendam tarefas a partir de vídeos do YouTube

Em Breve

Pesquisadores desenvolveram um modelo de recursos visuais usando vídeos da Internet de comportamento humano para treinar robôs para realizar tarefas complexas.

Essa abordagem preenche a lacuna entre conjuntos de dados estáticos e aplicativos de robôs do mundo real.

Os pesquisadores usam conjuntos de dados de vídeo humano em grande escala, como Ego4D e Epic Kitchens, para extrair recursos, integrando técnicas de visão computacional com manipulação robótica.

O conceito Vision-Robotics Bridge (VRB) mostra o potencial dessa abordagem, permitindo que os robôs aprendam com vídeos humanos e adquiram as habilidades necessárias para tarefas complexas.

A Meta AI revelou um novo algoritmo que permite que robôs aprendam e repliquem ações humanas assistindo a vídeos do YouTube. Em um artigo recente intitulado “Recursos de vídeos humanos como representação versátil para robótica”, os autores exploram como vídeos de interações humanas podem ser aproveitados para treinar robôs para realizar tarefas complexas.

Meta AI desenvolve um algoritmo que permite que robôs aprendam tarefas a partir de vídeos do YouTube
Crédito: Metaverse Post (mpost.io)

Esta pesquisa visa preencher a lacuna entre conjuntos de dados estáticos e aplicações de robôs do mundo real. Embora os modelos anteriores tenham mostrado sucesso em conjuntos de dados estáticos, a aplicação desses modelos diretamente aos robôs continua sendo um desafio. Os pesquisadores propõem que o treinamento de um modelo de recursos visuais usando vídeos da Internet sobre o comportamento humano possa ser uma solução. Este modelo estima onde e como é provável que um humano interaja em uma cena, fornecendo informações valiosas para os robôs.

O conceito de “affordances” é central para esta abordagem. Affordances referem-se às ações ou interações potenciais que um objeto ou ambiente oferece. Ao compreender as funcionalidades por meio de vídeos humanos, o robô ganha uma representação versátil que o capacita a realizar diversas tarefas complexas. Os pesquisadores integram seu modelo de recursos com quatro paradigmas diferentes de aprendizado de robôs: aprendizado de imitação offline, exploração, aprendizado condicionado a objetivos e parametrização de ação para aprendizagem de reforço.

Recomendado: Mais de 100 palavras detectáveis ​​por detectores de IA em 2023

Para extrair recursos, os pesquisadores utilizam conjuntos de dados de vídeo humano em grande escala, como Ego4D e cozinhas épicas. Eles empregam detectores de interação mão-objeto disponíveis no mercado para identificar a região de contato e rastrear a trajetória do pulso após o contato. No entanto, um desafio importante surge quando o humano ainda está presente na cena, causando uma mudança na distribuição. Para resolver isso, os pesquisadores usam as informações disponíveis da câmera para projetar os pontos de contato e a trajetória pós-contato em um quadro humano agnóstico, que serve como entrada para o modelo.

Anteriormente, os robôs eram capazes de imitar ações, mas suas habilidades se limitavam a replicar ambientes específicos. Com o algoritmo mais recente, os pesquisadores fizeram progressos significativos na “generalização” das ações dos robôs. Os robôs agora podem aplicar seus conhecimentos adquiridos em ambientes novos e desconhecidos. Essa conquista se alinha com a visão de alcançar a Inteligência Artificial Geral (AGI) conforme defendido pelo pesquisador de IA Jan LeCun.

Recomendado: GPT-4 Resolve questões do exame MIT com 100% de precisão? Não é verdade, dizem os pesquisadores
O modelo usa o quadro humano-agnóstico como entrada e produz duas saídas principais
O modelo usa o quadro humano-agnóstico como entrada e produz duas saídas principais: um mapa de calor de contato e waypoints de pulso. O mapa de calor de contato indica os prováveis ​​pontos de contato, enquanto os pontos de referência do pulso preveem a trajetória após o contato. Essas saídas podem ser usadas diretamente durante o tempo de inferência, aproveitando informações 3D esparsas, como profundidade e cinemática do robô. / Crédito: robo-affordances.github.io

A Meta AI está empenhada em avançar no campo da visão computacional e planeja compartilhar o código e o conjunto de dados de seu projeto. Isso permitirá que outros pesquisadores e desenvolvedores explorem e desenvolvam essa tecnologia. Com maior acesso ao código e conjunto de dados, o desenvolvimento de robôs de autoaprendizagem capazes de adquirir novas habilidades de Vídeos do YouTube continuará progredindo.

O modelo usa o quadro humano-agnóstico como entrada e produz duas saídas principais
Para avaliar a eficácia de sua abordagem, os pesquisadores realizaram experimentos em quatro ambientes do mundo real envolvendo dez tarefas diferentes e duas plataformas robóticas operando na natureza. Os resultados demonstraram a perfeita integração de técnicas de visão computacional com manipulação robótica, mostrando o potencial de seu conceito Vision-Robotics Bridge (VRB). / Crédito: robo-affordances.github.io

Ao aproveitar a grande quantidade de vídeos instrutivos online, os robôs podem se tornar mais versáteis e adaptáveis ​​em vários ambientes.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Plataforma de negociação de criptografia BitMEX estreia negociação de opções com 0 taxas e incentivos em dinheiro
O negócio Mercados Relatório de notícias
Plataforma de negociação de criptografia BitMEX estreia negociação de opções com 0 taxas e incentivos em dinheiro
8 de maio de 2024
Lisk faz transição oficial para Ethereum Layer 2 e revela Core v4.0.6
Relatório de notícias Tecnologia
Lisk faz transição oficial para Ethereum Layer 2 e revela Core v4.0.6
8 de maio de 2024
Novas moedas meme de maio de 2024: 7 escolhas para fãs de criptografia
Digerir Mercados Tecnologia
Novas moedas meme de maio de 2024: 7 escolhas para fãs de criptografia
8 de maio de 2024
Synternet integra Peaq em sua camada de dados para potencializar DApps orientados a eventos com dados DePIN em tempo real
O negócio Relatório de notícias Tecnologia
Synternet integra Peaq em sua camada de dados para potencializar DApps orientados a eventos com dados DePIN em tempo real
8 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.