Meta AI는 로봇이 YouTube 비디오에서 작업을 학습할 수 있는 알고리즘을 개발합니다.
요컨대
연구자들은 복잡한 작업을 수행하도록 로봇을 훈련시키기 위해 인간 행동의 인터넷 비디오를 사용하여 시각적 어포던스 모델을 개발했습니다.
이 접근 방식은 정적 데이터 세트와 실제 로봇 애플리케이션 간의 격차를 해소합니다.
연구자들은 Ego4D 및 Epic Kitchens와 같은 대규모 휴먼 비디오 데이터 세트를 사용하여 어포던스를 추출하고 컴퓨터 비전 기술과 로봇 조작을 통합합니다.
VRB(Vision-Robotics Bridge) 개념은 로봇이 인간의 비디오에서 배우고 복잡한 작업에 필요한 기술을 습득할 수 있도록 하는 이 접근 방식의 잠재력을 보여줍니다.
메타 AI는 로봇이 유튜브 영상을 보고 인간의 행동을 학습하고 복제할 수 있도록 하는 새로운 알고리즘을 공개했다. "라는 제목의 최근 논문에서로보틱스를 위한 다재다능한 표현으로서 휴먼 비디오의 어포던스” 저자는 복잡한 작업을 수행하도록 로봇을 훈련하는 데 인간 상호 작용 비디오를 활용하는 방법을 탐구합니다.
이 연구는 정적 데이터 세트와 실제 로봇 애플리케이션 간의 격차를 해소하는 것을 목표로 합니다. 이전 모델은 정적 데이터 세트에서 성공을 보였지만 이러한 모델을 로봇에 직접 적용하는 것은 여전히 어려운 일이었습니다. 연구원들은 인간 행동의 인터넷 비디오를 사용하여 시각적 어포던스 모델을 훈련하는 것이 해결책이 될 수 있다고 제안합니다. 이 모델은 인간이 장면에서 어디에서 어떻게 상호 작용할 가능성이 있는지 추정하여 로봇에 중요한 정보를 제공합니다.
"어포던스"의 개념은 이 접근 방식의 핵심입니다. 어포던스는 개체 또는 환경이 제공하는 잠재적인 작업 또는 상호 작용을 나타냅니다. 인간 비디오를 통해 어포던스를 이해함으로써 로봇은 다양하고 복잡한 작업을 수행할 수 있는 다재다능한 표현을 얻습니다. 연구자들은 어포던스 모델을 네 가지 로봇 학습 패러다임(오프라인 모방 학습, 탐색, 목표 조건 학습 및 행동 매개변수화)과 통합합니다. 강화 학습.
어포던스를 추출하기 위해 연구자들은 다음과 같은 대규모 휴먼 비디오 데이터 세트를 활용합니다. 자아4D 및 에픽 키친. 기성품 손-물체 상호 작용 감지기를 사용하여 접촉 영역을 식별하고 접촉 후 손목의 궤적을 추적합니다. 그러나 사람이 여전히 현장에 있을 때 중요한 문제가 발생하여 배포 이동이 발생합니다. 이 문제를 해결하기 위해 연구자들은 사용 가능한 카메라 정보를 사용하여 접촉 지점과 접촉 후 궤적을 모델에 대한 입력 역할을 하는 인간 불가지론 프레임에 투영합니다.
이전에는 로봇이 동작을 모방할 수 있었지만 그 능력은 특정 환경을 복제하는 데 제한되었습니다. 최신 알고리즘을 통해 연구원들은 로봇 동작을 "일반화"하는 데 상당한 진전을 이루었습니다. 로봇은 이제 획득한 지식을 새롭고 익숙하지 않은 환경에 적용할 수 있습니다. 이 성과는 일반 인공 지능(Artificial General Intelligence) 달성이라는 비전과 일치합니다.AGI) AI 연구원이 주장하는 대로 얀 르쿤.
Meta AI는 컴퓨터 비전 분야의 발전에 전념하고 있으며 프로젝트의 코드와 데이터 세트를 공유할 계획입니다. 이를 통해 다른 연구원과 개발자는 이 기술을 추가로 탐색하고 구축할 수 있습니다. 코드 및 데이터 세트에 대한 액세스가 증가함에 따라 새로운 기술을 습득할 수 있는 자가 학습 로봇의 개발 YouTube 동영상 계속 진행됩니다.
방대한 양의 온라인 교육 비디오를 활용함으로써 로봇은 다양한 환경에서 더욱 다재다능하고 적응할 수 있습니다.
AI에 대해 자세히 알아보기:
책임 한계
줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.
저자에 관하여
Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.
더 많은 기사
Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.