Meta AI phát triển một thuật toán cho phép robot học các nhiệm vụ từ video YouTube
Tóm lại
Các nhà nghiên cứu đã phát triển một mô hình khả năng chi trả trực quan bằng cách sử dụng các video trên internet về hành vi của con người để huấn luyện rô-bốt thực hiện các nhiệm vụ phức tạp.
Cách tiếp cận này thu hẹp khoảng cách giữa các bộ dữ liệu tĩnh và các ứng dụng rô-bốt trong thế giới thực.
Các nhà nghiên cứu sử dụng các bộ dữ liệu video quy mô lớn về con người như Ego4D và Epic Kitchens để trích xuất khả năng chi trả, tích hợp các kỹ thuật thị giác máy tính với thao tác rô-bốt.
Khái niệm Vision-Robotics Bridge (VRB) thể hiện tiềm năng của phương pháp này, cho phép rô-bốt học hỏi từ video của con người và có được các kỹ năng cần thiết cho các nhiệm vụ phức tạp.
Meta AI đã tiết lộ một thuật toán mới cho phép robot học và tái tạo hành động của con người bằng cách xem video YouTube. Trong một bài báo gần đây có tựa đề “Khả năng chi trả từ video của con người như một đại diện linh hoạt cho người máy,” các tác giả khám phá cách các video về tương tác của con người có thể được tận dụng để huấn luyện rô-bốt thực hiện các nhiệm vụ phức tạp.
Nghiên cứu này nhằm mục đích thu hẹp khoảng cách giữa các bộ dữ liệu tĩnh và các ứng dụng rô-bốt trong thế giới thực. Mặc dù các mô hình trước đó đã cho thấy thành công trên các bộ dữ liệu tĩnh, nhưng việc áp dụng trực tiếp các mô hình này cho rô-bốt vẫn là một thách thức. Các nhà nghiên cứu đề xuất đào tạo một mô hình chi trả trực quan bằng cách sử dụng các video trên internet về hành vi của con người có thể là một giải pháp. Mô hình này ước tính vị trí và cách thức con người có khả năng tương tác trong một cảnh, cung cấp thông tin có giá trị cho rô-bốt.
Khái niệm “khả năng chi trả” là trung tâm của cách tiếp cận này. Khả năng chi trả đề cập đến các hành động hoặc tương tác tiềm năng mà một đối tượng hoặc môi trường cung cấp. Bằng cách hiểu khả năng chi trả thông qua các video của con người, robot có được một phiên bản linh hoạt cho phép nó thực hiện các nhiệm vụ phức tạp khác nhau. Các nhà nghiên cứu tích hợp mô hình khả năng chi trả của họ với bốn mô hình học robot khác nhau: học bắt chước ngoại tuyến, khám phá, học có điều kiện về mục tiêu và tham số hóa hành động cho học tăng cường.
Để trích xuất khả năng chi trả, các nhà nghiên cứu sử dụng bộ dữ liệu video của con người quy mô lớn như Bản ngã4D và nhà bếp sử thi. Họ sử dụng các máy dò tương tác giữa tay và vật thể có sẵn để xác định vùng tiếp xúc và theo dõi quỹ đạo của cổ tay sau khi tiếp xúc. Tuy nhiên, một thách thức quan trọng nảy sinh khi con người vẫn hiện diện trong hiện trường, gây ra sự thay đổi phân phối. Để giải quyết vấn đề này, các nhà nghiên cứu sử dụng thông tin máy ảnh có sẵn để chiếu các điểm tiếp xúc và quỹ đạo sau khi tiếp xúc vào một khung bất khả tri của con người, đóng vai trò là đầu vào cho mô hình của họ.
Trước đây, rô-bốt có khả năng bắt chước các hành động, nhưng khả năng của chúng bị giới hạn trong việc tái tạo các môi trường cụ thể. Với thuật toán mới nhất, các nhà nghiên cứu đã đạt được tiến bộ đáng kể trong việc “tổng quát hóa” các hành động của robot. Rô-bốt giờ đây có thể áp dụng kiến thức thu được của chúng trong những môi trường mới và xa lạ. Thành tựu này phù hợp với tầm nhìn đạt được Trí tuệ nhân tạo tổng quát (AGI) theo chủ trương của nhà nghiên cứu AI Jan LeCun.
Meta AI cam kết thúc đẩy lĩnh vực thị giác máy tính và đang có kế hoạch chia sẻ mã và bộ dữ liệu của dự án. Điều này sẽ cho phép các nhà nghiên cứu và nhà phát triển khác tiếp tục khám phá và phát triển dựa trên công nghệ này. Với khả năng truy cập vào mã và tập dữ liệu ngày càng tăng, sự phát triển của rô-bốt tự học có khả năng tiếp thu các kỹ năng mới từ video YouTube sẽ tiếp tục tiến triển.
Bằng cách tận dụng số lượng lớn các video hướng dẫn trực tuyến, robot có thể trở nên linh hoạt và dễ thích nghi hơn trong nhiều môi trường khác nhau.
Đọc thêm về AI:
Trách nhiệm công ty
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viết
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.