Análise Tecnologia
01 de agosto de 2023

Is GPT-4 Prestes a turbinar a robótica? Por que o RT-2 muda tudo

Em Breve

O Google DeepMind desenvolveu aplicativos de modelo de linguagem de visão para controle robótico de ponta a ponta, com foco em sua capacidade de generalizar e transferir conhecimento entre domínios.

O modelo RT-2, projetado para gerar sequências capazes de codificar grandes quantidades de informações, foi testado em vários cenários, incluindo objetos desconhecidos, diferentes origens e ambientes variados.

O modelo RT-2 supera alguns de seus predecessores na adaptação a novas condições, em grande parte devido ao seu modelo de linguagem expansivo.

O Google DeepMind investigou aplicativos de modelo de linguagem de visão, com foco em seu potencial para controle robótico de ponta a ponta. Esta investigação procurou determinar se esses modelos eram capazes de ampla generalização. Além disso, investigou se certas funções cognitivas, como raciocínio e planejamento, frequentemente associadas a modelos expansivos de linguagem, poderiam emergir nesse contexto.

Is GPT-4 Prestes a turbinar a robótica? Por que o RT-2 muda tudo
Crédito: Metaverse Post / Stable Diffusion

A premissa fundamental por trás dessa exploração está intrinsecamente ligada às características dos modelos de linguagem grandes (LLMs). Tal modelos são projetados para gerar qualquer sequência capaz de codificar uma vasta gama de informações. Isso inclui não apenas linguagem comum ou código de programação como Python, mas também comandos específicos que podem guiar ações robóticas.

Para colocar isso em perspectiva, considere a capacidade do modelo de entender e traduzir sequências de strings específicas em comandos robóticos acionáveis. Como ilustração, uma string gerada como “1 128 91 241 5 101 127 217” pode ser decodificada da seguinte maneira:

  • O dígito inicial, um, significa que a tarefa ainda está em andamento e não foi concluída.
  • A tríade de números subsequente, 128-91-241, designa uma mudança relativa e normalizada nas três dimensões do espaço.
  • O conjunto final, 101-127-217, aponta o grau de rotação do segmento funcional do braço do robô.

Tal configuração habilita o robô para modificar seu estado em seis graus de liberdade. Traçando um paralelo, assim como modelos de linguagem assimilar ideias e conceitos gerais de vastos dados textuais na internet, o modelo RT-2 extrai conhecimento de informações baseadas na web para guiar ações robóticas.

As possíveis implicações disso são significativas. Se um modelo é exposto a um conjunto curado de trajetórias que indicam essencialmente, “para alcançar um determinado resultado, o mecanismo de preensão do robô precisa se mover de uma maneira específica”, então é lógico que o transformador pode gerar ações coerentes de acordo com esta entrada.

Um aspecto crucial em avaliação foi a capacidade de executar novas tarefas não cobertas durante o treinamento. Isso pode ser testado de algumas maneiras distintas:

1) Objetos desconhecidos: o modelo pode replicar uma tarefa quando apresentado a objetos nos quais não foi treinado? O sucesso neste aspecto depende da conversão do feed visual da câmera em um vetor, que o modelo de linguagem pode interpretar. O modelo deve então ser capaz de discernir seu significado, vincular um termo com sua contraparte do mundo real e, posteriormente, guiar o braço robótico para agir de acordo.

2) Fundos Diferentes: Como o modelo responde quando a maior parte do feed visual consiste em novos elementos porque o pano de fundo do local da tarefa foi totalmente alterado? Por exemplo, uma mudança nas mesas ou mesmo uma mudança nas condições de iluminação.

3) Ambientes Variados: Estendendo o ponto anterior, e se todo o local for diferente?

Para os humanos, esses cenários parecem simples – naturalmente, se alguém pode descartar uma lata em seu quarto, também deve poder fazê-lo ao ar livre, certo? (Em uma nota lateral, observei algumas pessoas em parques lutando com essa tarefa aparentemente simples). No entanto, para máquinas, esses são desafios que ainda precisam ser enfrentados.

Os dados gráficos revelam que o modelo RT-2 supera alguns de seus antecessores quando se trata de se adaptar a essas novas condições. Essa superioridade decorre, em grande parte, da alavancagem de um modelo de linguagem expansivo, enriquecido pela multiplicidade de textos que processou durante sua fase de treinamento.

Uma restrição destacada pelos pesquisadores é a incapacidade do modelo de se adaptar a habilidades totalmente novas. Por exemplo, não compreenderia levantar um objeto do lado esquerdo ou direito se isso não fizesse parte de seu treinamento. Em contraste, modelos de linguagem como ChatGPT superei esse obstáculo sem esforço. Ao processar grandes quantidades de dados em uma miríade de tarefas, esses modelos podem decifrar rapidamente e agir de acordo com novas solicitações, mesmo que nunca as tenham encontrado antes.

Tradicionalmente, os robôs operam usando combinações de sistemas intrincados. Nessas configurações, os sistemas de raciocínio de nível superior e os sistemas de manipulação fundamentais frequentemente interagiam sem comunicação eficiente, semelhante a jogar um jogo de “telefone quebrado”. Imagine conceituar uma ação mentalmente e, em seguida, precisar retransmitir isso ao seu corpo para execução. O recém-introduzido modelo RT-2 agiliza esse processo. Ele capacita um modelo de linguagem única para realizar um raciocínio sofisticado, ao mesmo tempo em que despacha comandos diretos para o robô. Isso demonstra que, com dados mínimos de treinamento, o robô pode realizar atividades que não aprendeu explicitamente.

Por exemplo, para permitir que sistemas mais antigos descartassem resíduos, eles exigiam treinamento específico para identificar, coletar e descartar lixo. Em contraste, o RT-2 já possui uma compreensão fundamental dos resíduos, pode reconhecê-los sem treinamento direcionado e pode descartá-los mesmo sem instrução prévia sobre a ação. Considere a questão matizada, “o que constitui desperdício?” Este é um conceito difícil de formalizar. Um saco de salgadinhos ou casca de banana passa de item a resíduo pós-consumo. Essas complexidades não precisam de explicação explícita ou treinamento separado; RT-2 os decifra usando seu entendimento inerente e age de acordo.

Veja por que esse avanço é fundamental e suas implicações futuras:

  • Os modelos de linguagem, como o RT-2, funcionam como mecanismos cognitivos abrangentes. Sua capacidade de generalizar e transferir conhecimento entre domínios significa que eles são adaptáveis ​​a vários aplicativos.
  • Os pesquisadores intencionalmente não empregaram os modelos mais avançados para seu estudo, com o objetivo de garantir que cada modelo respondesse em um segundo (ou seja, uma frequência de ação robótica de pelo menos 1 Hertz). Hipoteticamente, integrar um modelo como GPT-4 e de um modelo visual superior poderia produzir resultados ainda mais convincentes.
  • Dados abrangentes ainda são escassos. No entanto, a transição do estado atual para um conjunto de dados holístico, variando de linhas de produção de fábrica a tarefas domésticas, deve levar cerca de um a dois anos. Esta é uma estimativa provisória, portanto, especialistas na área podem oferecer mais precisão. Esse influxo de dados inevitavelmente levará a avanços significativos.
  • Embora o RT-2 tenha sido desenvolvido usando uma técnica específica, existem vários outros métodos. O futuro provavelmente reserva uma fusão dessas metodologias, aprimorando as capacidades robóticas. Uma abordagem prospectiva poderia envolver o treinamento de robôs usando vídeos de atividades humanas. Não há necessidade de gravações exclusivas – plataformas como TikTok e YouTube oferecem um vasto repositório desse tipo de conteúdo.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
NuLink é lançado no Bybit Web3 Plataforma IDO. Fase de assinatura se estende até 13 de maio
Mercados Relatório de notícias Tecnologia
NuLink é lançado no Bybit Web3 Plataforma IDO. Fase de assinatura se estende até 13 de maio
9 de maio de 2024
UXLINK e Binance colaboram em nova campanha, oferecendo aos usuários 20 milhões de pontos UXUY e Airdrop Recompensas
Mercados Relatório de notícias Tecnologia
UXLINK e Binance colaboram em nova campanha, oferecendo aos usuários 20 milhões de pontos UXUY e Airdrop Recompensas
9 de maio de 2024
Side Protocol lança testnet incentivado e apresenta sistema de pontos internos, permitindo que os usuários ganhem pontos SIDE
Mercados Relatório de notícias Tecnologia
Side Protocol lança testnet incentivado e apresenta sistema de pontos internos, permitindo que os usuários ganhem pontos SIDE
9 de maio de 2024
Web3 e Crypto Events em maio de 2024: Explorando Novas Tecnologias e Tendências Emergentes em Blockchain e DeFi
Digerir O negócio Mercados Tecnologia
Web3 e Crypto Events em maio de 2024: Explorando Novas Tecnologias e Tendências Emergentes em Blockchain e DeFi
9 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.