Báo cáo tin tức
06 Tháng Mười

Google vượt qua Meta bằng cách ra mắt Trình tạo AI chuyển văn bản thành video mới, Imagen Video 

Tóm lại

Imagen Video của Google cố gắng giúp trình tạo video biến thành ứng dụng sát thủ

Google không mất nhiều thời gian để phản hồi Make-a-Video từ Meta. Bằng cách sử dụng dấu nhắc văn bản, Video Imagen có thể tạo ra một video tuyệt vời. Kết quả là một bước tiến vượt bậc so với hiện đại mặc dù có một số nhược điểm.

So với trình tạo AI chuyển văn bản thành video của Facebook Làm một đoạn phim, kết quả tốt hơn rõ rệt. Tuy nhiên, chiến lược này cũng yêu cầu giám sát nhiều hơn. Trái ngược với Imagen Video, nơi các công nhân vi mô làm việc chăm chỉ để chú thích phim bằng văn bản mô tả, Make-a-Scene sử dụng các video không được gắn nhãn để đào tạo.

Đi sâu vào các chi tiết cụ thể của kiến ​​trúc là vô nghĩa; bạn nên đọc về nó trong bài viết tại đây. Chúng tôi chỉ có thể xác nhận rằng 16 khung hình được tạo lần đầu tiên từ việc nhúng văn bản của bộ mã hóa T5 ở độ phân giải 48×24 với 3 khung hình mỗi giây và điều này sau đó được nâng cấp bằng một số mô hình khuếch tán thành phim cuối cùng gồm 128 khung hình ở 1280×768 và 24 khung hình mỗi giây.

Imagen Video là gì?

Imagen Video là phương pháp tạo video có điều kiện văn bản dựa trên một loạt mô hình phổ biến video. Imagen Video sản xuất phim chất lượng cao từ lời nhắc văn bản bằng cách kết hợp mô hình sản xuất video cơ bản với một loạt các mô hình siêu phân giải video theo không gian và thời gian đan xen. Xem qua các lựa chọn thiết kế mà nhóm đã thực hiện trong khi mở rộng quy mô hệ thống ở mức caodefimô hình chuyển văn bản thành video, bao gồm quyết định tham số hóa các mô hình khuếch tán và lựa chọn các mô hình siêu phân giải không gian và thời gian tích chập hoàn toàn ở các độ phân giải cụ thể. Ngoài ra, nó xác nhận và áp dụng các kết quả từ nghiên cứu trước đó về tạo hình ảnh dựa trên khuếch tán vào bối cảnh tạo video. Các mô hình video sau đó được chắt lọc liên tục với hướng dẫn không cần phân loại để lấy mẫu nhanh, chất lượng cao.

Nhóm nghiên cứu của Google tuyên bố rằng hệ thống chấp nhận mô tả bằng văn bản và tạo phim 16 khung hình với ba khung hình mỗi giây với độ phân giải 24 x 48 pixel. Hệ thống chia tỷ lệ và “dự đoán” các khung hình bổ sung, tạo video cuối cùng với 128 khung hình ở tốc độ 24 khung hình/giây và độ phân giải 720p (1280×768). Có 60 triệu cặp văn bản hình ảnh và 14 triệu cặp văn bản video được sử dụng để huấn luyện Imagen Video.

Imagen Video mẫu

Ngay cả khi chỉ vì sử dụng AI để tạo video nhanh hơn và ít tốn kém hơn, những công nghệ như vậy chắc chắn sẽ được sử dụng ở mọi nơi.

Quan tâm đến việc đọc nhiều hơn? Dưới đây là một số chủ đề bổ sung để kiểm tra:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Cơn sốt DOGE: Phân tích sự gia tăng giá trị gần đây của Dogecoin (DOGE)

Ngành công nghiệp tiền điện tử đang mở rộng nhanh chóng và các đồng tiền meme đang chuẩn bị cho một bước phát triển đáng kể. Dogecoin (DOGE), ...

Biết thêm

Sự phát triển của nội dung do AI tạo ra trong Metaverse

Sự xuất hiện của nội dung AI tổng quát là một trong những sự phát triển hấp dẫn nhất trong môi trường ảo ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Các nhà môi giới Tiger triển khai giao dịch không hoa hồng cho Bosera HashKey, China Asset Management và Harvest Spot Crypto ETF
Kinh doanh thị trường Báo cáo tin tức
Các nhà môi giới Tiger triển khai giao dịch không hoa hồng cho Bosera HashKey, China Asset Management và Harvest Spot Crypto ETF
29 Tháng Tư, 2024
Scroll hoàn thành nâng cấp Mainnet Bernoulli, dự đoán chi phí giao dịch sẽ giảm 10 lần
Báo cáo tin tức Công nghệ
Scroll hoàn thành nâng cấp Mainnet Bernoulli, dự đoán chi phí giao dịch sẽ giảm 10 lần
29 Tháng Tư, 2024
OKX Jumpstart liệt kê Runecoin, cho phép đặt cược BTC để kiếm token RUNE
thị trường Báo cáo tin tức Công nghệ
OKX Jumpstart liệt kê Runecoin, cho phép đặt cược BTC để kiếm token RUNE
29 Tháng Tư, 2024
Ưu đãi hàng đầu trong tuần này, Các khoản đầu tư lớn vào AI, CNTT, Web3và Tiền điện tử (22-26.04)
Tiêu Kinh doanh thị trường Công nghệ
Ưu đãi hàng đầu trong tuần này, Các khoản đầu tư lớn vào AI, CNTT, Web3và Tiền điện tử (22-26.04)
26 Tháng Tư, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH