Báo cáo tin tức SMW Công nghệ
26 Tháng Sáu, 2023

Meta AI phát triển một thuật toán cho phép robot học các nhiệm vụ từ video YouTube

Tóm lại

Các nhà nghiên cứu đã phát triển một mô hình khả năng chi trả trực quan bằng cách sử dụng các video trên internet về hành vi của con người để huấn luyện rô-bốt thực hiện các nhiệm vụ phức tạp.

Cách tiếp cận này thu hẹp khoảng cách giữa các bộ dữ liệu tĩnh và các ứng dụng rô-bốt trong thế giới thực.

Các nhà nghiên cứu sử dụng các bộ dữ liệu video quy mô lớn về con người như Ego4D và Epic Kitchens để trích xuất khả năng chi trả, tích hợp các kỹ thuật thị giác máy tính với thao tác rô-bốt.

Khái niệm Vision-Robotics Bridge (VRB) thể hiện tiềm năng của phương pháp này, cho phép rô-bốt học hỏi từ video của con người và có được các kỹ năng cần thiết cho các nhiệm vụ phức tạp.

Meta AI đã tiết lộ một thuật toán mới cho phép robot học và tái tạo hành động của con người bằng cách xem video YouTube. Trong một bài báo gần đây có tựa đề “Khả năng chi trả từ video của con người như một đại diện linh hoạt cho người máy,” các tác giả khám phá cách các video về tương tác của con người có thể được tận dụng để huấn luyện rô-bốt thực hiện các nhiệm vụ phức tạp.

Meta AI phát triển một thuật toán cho phép robot học các nhiệm vụ từ video YouTube
Tín dụng: Metaverse Post (mpost.io)

Nghiên cứu này nhằm mục đích thu hẹp khoảng cách giữa các bộ dữ liệu tĩnh và các ứng dụng rô-bốt trong thế giới thực. Mặc dù các mô hình trước đó đã cho thấy thành công trên các bộ dữ liệu tĩnh, nhưng việc áp dụng trực tiếp các mô hình này cho rô-bốt vẫn là một thách thức. Các nhà nghiên cứu đề xuất đào tạo một mô hình chi trả trực quan bằng cách sử dụng các video trên internet về hành vi của con người có thể là một giải pháp. Mô hình này ước tính vị trí và cách thức con người có khả năng tương tác trong một cảnh, cung cấp thông tin có giá trị cho rô-bốt.

Khái niệm “khả năng chi trả” là trung tâm của cách tiếp cận này. Khả năng chi trả đề cập đến các hành động hoặc tương tác tiềm năng mà một đối tượng hoặc môi trường cung cấp. Bằng cách hiểu khả năng chi trả thông qua các video của con người, robot có được một phiên bản linh hoạt cho phép nó thực hiện các nhiệm vụ phức tạp khác nhau. Các nhà nghiên cứu tích hợp mô hình khả năng chi trả của họ với bốn mô hình học robot khác nhau: học bắt chước ngoại tuyến, khám phá, học có điều kiện về mục tiêu và tham số hóa hành động cho học tăng cường.

Đề nghị: Hơn 100 từ hàng đầu có thể được phát hiện bởi máy dò AI vào năm 2023

Để trích xuất khả năng chi trả, các nhà nghiên cứu sử dụng bộ dữ liệu video của con người quy mô lớn như Bản ngã4Dnhà bếp sử thi. Họ sử dụng các máy dò tương tác giữa tay và vật thể có sẵn để xác định vùng tiếp xúc và theo dõi quỹ đạo của cổ tay sau khi tiếp xúc. Tuy nhiên, một thách thức quan trọng nảy sinh khi con người vẫn hiện diện trong hiện trường, gây ra sự thay đổi phân phối. Để giải quyết vấn đề này, các nhà nghiên cứu sử dụng thông tin máy ảnh có sẵn để chiếu các điểm tiếp xúc và quỹ đạo sau khi tiếp xúc vào một khung bất khả tri của con người, đóng vai trò là đầu vào cho mô hình của họ.

Trước đây, rô-bốt có khả năng bắt chước các hành động, nhưng khả năng của chúng bị giới hạn trong việc tái tạo các môi trường cụ thể. Với thuật toán mới nhất, các nhà nghiên cứu đã đạt được tiến bộ đáng kể trong việc “tổng quát hóa” các hành động của robot. Rô-bốt giờ đây có thể áp dụng kiến ​​thức thu được của chúng trong những môi trường mới và xa lạ. Thành tựu này phù hợp với tầm nhìn đạt được Trí tuệ nhân tạo tổng quát (AGI) theo chủ trương của nhà nghiên cứu AI Jan LeCun.

Đề nghị: GPT-4 Giải các câu hỏi thi MIT với độ chính xác 100%? Không đúng, các nhà nghiên cứu nói
Mô hình lấy khung bất khả tri của con người làm đầu vào và tạo ra hai đầu ra chính
Mô hình lấy khung bất khả tri của con người làm đầu vào và tạo ra hai đầu ra chính: bản đồ nhiệt tiếp xúc và điểm tham chiếu cổ tay. Bản đồ nhiệt tiếp xúc cho biết các điểm có khả năng tiếp xúc, trong khi các điểm tham chiếu ở cổ tay dự đoán quỹ đạo sau khi tiếp xúc. Những kết quả đầu ra này có thể được sử dụng trực tiếp trong thời gian suy luận, tận dụng thông tin 3D thưa thớt như độ sâu và động học của robot. / Tín dụng: robo-affordances.github.io

Meta AI cam kết thúc đẩy lĩnh vực thị giác máy tính và đang có kế hoạch chia sẻ mã và bộ dữ liệu của dự án. Điều này sẽ cho phép các nhà nghiên cứu và nhà phát triển khác tiếp tục khám phá và phát triển dựa trên công nghệ này. Với khả năng truy cập vào mã và tập dữ liệu ngày càng tăng, sự phát triển của rô-bốt tự học có khả năng tiếp thu các kỹ năng mới từ video YouTube sẽ tiếp tục tiến triển.

Mô hình lấy khung bất khả tri của con người làm đầu vào và tạo ra hai đầu ra chính
Để đánh giá hiệu quả của phương pháp của họ, các nhà nghiên cứu đã tiến hành thử nghiệm trên bốn môi trường trong thế giới thực liên quan đến mười nhiệm vụ khác nhau và hai nền tảng robot hoạt động trong tự nhiên. Kết quả đã chứng minh sự tích hợp liền mạch của kỹ thuật thị giác máy tính với thao tác robot, thể hiện tiềm năng của khái niệm Cầu Tầm nhìn-Robotics (VRB) của họ. / Tín dụng: robo-affordances.github.io

Bằng cách tận dụng số lượng lớn các video hướng dẫn trực tuyến, robot có thể trở nên linh hoạt và dễ thích nghi hơn trong nhiều môi trường khác nhau.

Đọc thêm về AI:

Trách nhiệm công ty

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
THÔNG TIN MỚI NHẤT

Sự bình lặng trước cơn bão Solana: Biểu đồ, Cá voi và Tín hiệu trên chuỗi đang nói gì hiện nay

Solana đã chứng minh được hiệu suất mạnh mẽ, nhờ vào việc áp dụng ngày càng tăng, sự quan tâm của các tổ chức và các mối quan hệ đối tác quan trọng, đồng thời phải đối mặt với tiềm năng ...

Biết thêm

Tiền điện tử vào tháng 2025 năm XNUMX: Các xu hướng chính, sự thay đổi và những gì sắp tới

Vào tháng 2025 năm XNUMX, không gian tiền điện tử tập trung vào việc củng cố cơ sở hạ tầng cốt lõi, với việc Ethereum chuẩn bị cho Pectra ...

Biết thêm
Đọc thêm
Tìm hiểu thêm
Tether công bố khoản đầu tư chiến lược vào mạng lưới t-0 để thúc đẩy cơ sở hạ tầng thanh toán dựa trên USD₮.
Báo cáo tin tức Công nghệ
Tether công bố khoản đầu tư chiến lược vào mạng lưới t-0 để thúc đẩy cơ sở hạ tầng thanh toán dựa trên USD₮.
6 Tháng hai, 2026
Thẻ BitMart mở rộng phạm vi toàn cầu đến hơn 115 quốc gia, công bố các ưu đãi năm 2026 với mức hoàn tiền lên đến 5.5% và phần thưởng hàng năm hơn 300 đô la.
Báo cáo tin tức
Thẻ BitMart mở rộng phạm vi toàn cầu đến hơn 115 quốc gia, công bố các ưu đãi năm 2026 với mức hoàn tiền lên đến 5.5% và phần thưởng hàng năm hơn 300 đô la.
6 Tháng hai, 2026
Roblox ra mắt công nghệ tạo hình 4D với Cube AI, cho phép người sáng tạo xây dựng các đối tượng tương tác từ các lời nhắc bằng văn bản.
Báo cáo tin tức Công nghệ
Roblox ra mắt công nghệ tạo hình 4D với Cube AI, cho phép người sáng tạo xây dựng các đối tượng tương tác từ các lời nhắc bằng văn bản.
6 Tháng hai, 2026
OpenAICông ty Frontier hướng tới việc tích hợp các tác nhân AI vào quy trình làm việc phức tạp cho các nhóm doanh nghiệp.
Báo cáo tin tức Công nghệ
OpenAICông ty Frontier hướng tới việc tích hợp các tác nhân AI vào quy trình làm việc phức tạp cho các nhóm doanh nghiệp.
6 Tháng hai, 2026
CRYPTOMERIA LABS PTE. CÔNG TY TNHH