Ngày 19 tháng 2023 năm XNUMX

Google giới thiệu Động lực hình ảnh sáng tạo mô phỏng cảnh động trong hình ảnh tĩnh

Xuất bản: Ngày 19 tháng 2023 năm 4 lúc 21:19 sáng Cập nhật: ngày 2023 tháng 9 năm 02 lúc XNUMX:XNUMX sáng

Chỉnh sửa và xác minh tính xác thực: ngày 19 tháng 2023 năm 4 lúc 21:XNUMX sáng

Google đã tiết lộ một Động lực hình ảnh sáng tạo, một cách tiếp cận mới cho phép chuyển đổi một hình ảnh tĩnh duy nhất thành một video lặp liền mạch hoặc một cảnh năng động có tính tương tác, cung cấp nhiều ứng dụng thực tế.

Google giới thiệu Động lực hình ảnh sáng tạo mô phỏng cảnh động trong hình ảnh tĩnh

Cốt lõi của công nghệ tiên phong này là mô hình hóa không gian hình ảnh trước động lực học của cảnh. Mục tiêu là tạo ra sự hiểu biết toàn diện về cách các đối tượng và thành phần trong hình ảnh có thể hoạt động khi chịu các tương tác động khác nhau. Sự hiểu biết này sau đó có thể được sử dụng để mô phỏng phản ứng của động lực đối tượng đối với các tương tác của người dùng một cách hiệu quả.

Tính năng chính của công nghệ này là khả năng tạo video lặp liền mạch. Bằng cách tận dụng không gian hình ảnh trước động lực học của cảnh, hệ thống của Google có thể ngoại suy và mở rộng chuyển động của các phần tử trong hình ảnh, biến hình ảnh đó thành một vòng lặp video hấp dẫn và liên tục. Chức năng này mở ra nhiều khả năng sáng tạo cho người sáng tạo và thiết kế nội dung.

Bài báo trình bày cách tiếp cận mô hình hóa không gian ảnh trước dựa trên động học cảnh, được học từ tập hợp các quỹ đạo chuyển động được trích từ các chuỗi video thực có chứa chuyển động dao động tự nhiên như cây, hoa, nến và quần áo bay trong gió. . Mô hình được đào tạo sử dụng quy trình lấy mẫu khuếch tán phối hợp tần số để dự đoán biểu diễn chuyển động dài hạn trên mỗi pixel trong miền Fourier mà họ gọi là kết cấu chuyển động ngẫu nhiên thần kinh. Biểu diễn này có thể được chuyển đổi thành các quỹ đạo chuyển động dày đặc kéo dài toàn bộ video.

Công nghệ này cho phép người dùng tương tác với các đối tượng trong hình ảnh tĩnh một cách thực tế. Bằng cách mô phỏng phản ứng của động lực học đối tượng đối với sự kích thích của người dùng, hệ thống của Google cho phép trải nghiệm phong phú và tương tác bên trong các hình ảnh. Điều này có tiềm năng cách mạng hóa không gian metaverse và cách người dùng tương tác với nội dung trực quan.

Nghiên cứu khám phá việc mô hình hóa một thế hệ trước cho chuyển động của cảnh trong không gian hình ảnh, tức là chuyển động của tất cả các pixel trong một hình ảnh. Mô hình này được huấn luyện về các quỹ đạo chuyển động được trích xuất tự động từ một bộ sưu tập lớn các chuỗi video thực. Dựa trên hình ảnh đầu vào, mô hình được đào tạo dự đoán kết cấu chuyển động ngẫu nhiên thần kinh: một tập hợp các hệ số của cơ sở chuyển động đặc trưng cho quỹ đạo của từng pixel trong tương lai.

Nền tảng của sự đổi mới này nằm ở một mô hình được đào tạo tỉ mỉ. Mô hình của Google học hỏi từ một tập dữ liệu khổng lồ về quỹ đạo chuyển động được trích xuất từ các chuỗi video thực có chuyển động dao động tự nhiên. Những phân cảnh này bao gồm các cảnh có các yếu tố như cây đung đưa, hoa lay động, nến lung linh và quần áo tung bay trong gió. Bộ dữ liệu đa dạng này cho phép mô hình hiểu được nhiều hành vi động.

Phạm vi nghiên cứu được giới hạn ở các cảnh trong thế giới thực với động lực dao động tự nhiên, chẳng hạn như cây và hoa chuyển động trong gió. Chuỗi Fourier được chọn làm hàm cơ sở. Sau đó, kết cấu không gian tần số thu được có thể được chuyển đổi thành các quỹ đạo chuyển động pixel tầm xa, dày đặc, có thể được sử dụng để tổng hợp các khung hình trong tương lai, biến hình ảnh tĩnh thành hoạt ảnh chân thực.

Khi được trình bày với một Hình ảnh đơn lẻ, mô hình được đào tạo sử dụng quy trình lấy mẫu khuếch tán phối hợp tần số. Quá trình này dự đoán biểu diễn chuyển động dài hạn trên mỗi pixel trong miền Fourier, được gọi là kết cấu chuyển động ngẫu nhiên thần kinh. Sau đó, biểu diễn này được chuyển thành các quỹ đạo chuyển động dày đặc kéo dài toàn bộ video. Kết hợp với mô-đun kết xuất dựa trên hình ảnh, những quỹ đạo này có thể được khai thác cho nhiều ứng dụng thực tế khác nhau.

So với các ưu tiên trên các pixel RGB thô, các ưu tiên trên chuyển động ghi lại cấu trúc dưới chiều cơ bản hơn, có chiều thấp hơn, giải thích hiệu quả các biến thể trong giá trị pixel. Điều này dẫn đến việc tạo ra hoạt ảnh trong thời gian dài mạch lạc hơn và kiểm soát chi tiết hơn đối với hoạt ảnh so với các phương pháp thực hiện trước đó. hình ảnh hoạt hình thông qua tổng hợp video thô.

Biểu diễn chuyển động được tạo thuận tiện cho một số ứng dụng xuôi dòng, chẳng hạn như tạo video lặp liền mạch, chỉnh sửa chuyển động được tạo và cho phép tương tác hình ảnh động, mô phỏng phản ứng của động lực học đối tượng với các lực do người dùng tác dụng.

Đọc thêm các chủ đề liên quan:

tags:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.

Xem thêm bài viết

Damir Yalalov