Google giới thiệu Động lực hình ảnh sáng tạo mô phỏng cảnh động trong hình ảnh tĩnh
Google đã tiết lộ một Động lực hình ảnh sáng tạo, một cách tiếp cận mới cho phép chuyển đổi một hình ảnh tĩnh duy nhất thành một video lặp liền mạch hoặc một cảnh năng động có tính tương tác, cung cấp nhiều ứng dụng thực tế.
Cốt lõi của công nghệ tiên phong này là mô hình hóa không gian hình ảnh trước động lực học của cảnh. Mục tiêu là tạo ra sự hiểu biết toàn diện về cách các đối tượng và thành phần trong hình ảnh có thể hoạt động khi chịu các tương tác động khác nhau. Sự hiểu biết này sau đó có thể được sử dụng để mô phỏng phản ứng của động lực đối tượng đối với các tương tác của người dùng một cách hiệu quả.
Tính năng chính của công nghệ này là khả năng tạo video lặp liền mạch. Bằng cách tận dụng không gian hình ảnh trước động lực học của cảnh, hệ thống của Google có thể ngoại suy và mở rộng chuyển động của các phần tử trong hình ảnh, biến hình ảnh đó thành một vòng lặp video hấp dẫn và liên tục. Chức năng này mở ra nhiều khả năng sáng tạo cho người sáng tạo và thiết kế nội dung.
Công nghệ này cho phép người dùng tương tác với các đối tượng trong hình ảnh tĩnh một cách thực tế. Bằng cách mô phỏng phản ứng của động lực học đối tượng đối với sự kích thích của người dùng, hệ thống của Google cho phép trải nghiệm phong phú và tương tác bên trong các hình ảnh. Điều này có tiềm năng cách mạng hóa không gian metaverse và cách người dùng tương tác với nội dung trực quan.
Nền tảng của sự đổi mới này nằm ở một mô hình được đào tạo tỉ mỉ. Mô hình của Google học hỏi từ một tập dữ liệu khổng lồ về quỹ đạo chuyển động được trích xuất từ các chuỗi video thực có chuyển động dao động tự nhiên. Những phân cảnh này bao gồm các cảnh có các yếu tố như cây đung đưa, hoa lay động, nến lung linh và quần áo tung bay trong gió. Bộ dữ liệu đa dạng này cho phép mô hình hiểu được nhiều hành vi động.
Khi được trình bày với một Hình ảnh đơn lẻ, mô hình được đào tạo sử dụng quy trình lấy mẫu khuếch tán phối hợp tần số. Quá trình này dự đoán biểu diễn chuyển động dài hạn trên mỗi pixel trong miền Fourier, được gọi là kết cấu chuyển động ngẫu nhiên thần kinh. Sau đó, biểu diễn này được chuyển thành các quỹ đạo chuyển động dày đặc kéo dài toàn bộ video. Kết hợp với mô-đun kết xuất dựa trên hình ảnh, những quỹ đạo này có thể được khai thác cho nhiều ứng dụng thực tế khác nhau.
So với các ưu tiên trên các pixel RGB thô, các ưu tiên trên chuyển động ghi lại cấu trúc dưới chiều cơ bản hơn, có chiều thấp hơn, giải thích hiệu quả các biến thể trong giá trị pixel. Điều này dẫn đến việc tạo ra hoạt ảnh trong thời gian dài mạch lạc hơn và kiểm soát chi tiết hơn đối với hoạt ảnh so với các phương pháp thực hiện trước đó. hình ảnh hoạt hình thông qua tổng hợp video thô.
Biểu diễn chuyển động được tạo thuận tiện cho một số ứng dụng xuôi dòng, chẳng hạn như tạo video lặp liền mạch, chỉnh sửa chuyển động được tạo và cho phép tương tác hình ảnh động, mô phỏng phản ứng của động lực học đối tượng với các lực do người dùng tác dụng.
Đọc thêm các chủ đề liên quan:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.