Báo cáo tin tức Công nghệ
24 Tháng một, 2023

VToonify: Mô hình AI thời gian thực để tạo video chân dung nghệ thuật

Tóm lại

Một khung VToonify mang tính cách mạng đã được các nhà phát triển phát triển để cung cấp khả năng chuyển kiểu video dọc có độ phân giải cao, được kiểm soát.

Để tạo ra những bức chân dung nghệ thuật tuyệt đẹp, khung này sử dụng các lớp có độ phân giải trung bình và cao của StyleGAN.

Nó cho phép mở rộng dựa trên StyleGAN hiện có mô hình toon hóa hình ảnh sang video.

Các nhà nghiên cứu từ Đại học Công nghệ Nanyang đã đã giới thiệu một khung VToonify mới để tạo chuyển kiểu video dọc có độ phân giải cao có thể kiểm soát được. VToonify tận dụng các lớp StyleGAN có độ phân giải trung bình và cao để hiển thị chân dung nghệ thuật chất lượng cao dựa trên các tính năng nội dung đa tỷ lệ được trích xuất bởi bộ mã hóa để bảo toàn chi tiết khung hình tốt hơn. Kết quả thử nghiệm cho thấy rằng khung của chúng tôi có thể tạo video có chất lượng cao nhất quán và biểu cảm khuôn mặt mong muốn mà không cần căn chỉnh khuôn mặt hoặc hạn chế kích thước khung hình.

Kết quả là, một kiến ​​trúc tích chập hoàn toàn chấp nhận các khuôn mặt không được căn chỉnh trong các video có kích thước khác nhau sẽ tạo ra các khuôn mặt hoàn chỉnh với các chuyển động tự nhiên. Khung VToonify kế thừa các tính năng hấp dẫn của các mô hình này để kiểm soát phong cách linh hoạt về màu sắc và cường độ. Nó tương thích với các mô hình hiệu chuẩn hóa hình ảnh dựa trên StyleGAN hiện có để mở rộng chúng sang hiệu chuẩn hóa video. Tác phẩm này giới thiệu hai phiên bản của VToonify để chuyển kiểu video dọc dựa trên bộ sưu tập và dựa trên mẫu mực, tương ứng, được xây dựng dựa trên Toonify và DualStyleGAN.

Vtoonify: Mô hình AI thời gian thực để tạo video chân dung nghệ thuật

Các kết quả thử nghiệm mở rộng cho thấy khung VToonify được đề xuất vượt trội so với các phương pháp cạnh tranh trong việc sản xuất phim chân dung nghệ thuật với các điều khiển kiểu có thể điều chỉnh, có chất lượng tuyệt vời và nhất quán theo thời gian. Kiểm tra GitHub để biết thêm chi tiết.

Bài viết liên quan: OpenAI đang nghiên cứu tạo mô hình AI cho video

Để cung cấp khả năng chuyển kiểu video chân dung có độ phân giải cao có thể kiểm soát được, VToonify kết hợp các ưu điểm của khung dịch hình ảnh và khung dựa trên StyleGAN.

(A) Để hỗ trợ kích thước đầu vào thay đổi, một hệ thống dịch hình ảnh sử dụng các mạng tích chập hoàn toàn. Tuy nhiên, thật khó để truyền đạt phong cách có độ phân giải cao và được kiểm soát khi dạy từ đầu.

(B) Khung dựa trên StyleGAN, chỉ hỗ trợ kích thước hình ảnh cố định và tổn thất chi tiết, sử dụng mô hình StyleGAN được đào tạo trước để truyền kiểu có thể kiểm soát và độ phân giải cao.

(C) Để tạo kiến ​​trúc bộ tạo-bộ mã hóa xoắn hoàn toàn giống với cấu trúc của khung dịch hình ảnh, hệ thống kết hợp của chúng tôi mở rộng StyleGAN bằng cách xóa tính năng đầu vào có kích thước cố định và các lớp có độ phân giải thấp.

Để duy trì các chi tiết của khung, các nhà phát triển đào tạo một bộ mã hóa để trích xuất các tính năng nội dung đa tỷ lệ từ khung đầu vào dưới dạng điều kiện nội dung bổ sung. VToonify kế thừa tính linh hoạt trong điều khiển kiểu của mô hình StyleGAN bằng cách đưa nó vào trình tạo để chắt lọc cả dữ liệu và mô hình của nó.

Vtoonify: Mô hình AI thời gian thực để tạo video chân dung nghệ thuật
Bài viết liên quan: Lambda Labs đã công bố bộ trộn hình ảnh AI có thể kết hợp tối đa năm hình ảnh

Khung VToonify kế thừa các đặc điểm hấp dẫn để kiểm soát kiểu linh hoạt từ các mô hình chỉnh sửa hình ảnh dựa trên StyleGAN hiện tại và tương thích với chúng để mở rộng chúng sang video toon hóa. VToonify của chúng tôi cung cấp các tính năng sau bằng cách sử dụng mô hình DualStyleGAN làm nền tảng StyleGAN:

  • Chuyển phong cách từ các cấu trúc dựa trên mẫu mực;
  • Sửa đổi mức độ phong cách;
  • Chuyển kiểu màu dựa trên mẫu.
Vtoonify: Mô hình AI thời gian thực để tạo video chân dung nghệ thuật
Để chắt lọc StyleGAN, các nhà phát triển so sánh hai xương sống Toonify và DualStyleGAN, cũng như đường cơ sở dịch hình ảnh sang hình ảnh có độ phân giải cao Pix2pixHD. VToonify-T và VToonify-D vượt trội so với các nền tảng tương đương của chúng, Toonify và DualStyleGAN, về mặt cách điệu toàn bộ video trong khi vẫn giữ nguyên các yếu tố hình ảnh và chất lượng cao như các nền tảng cho từng khung hình riêng lẻ. Ví dụ, VToonify-T theo sau Toonify để tạo hiệu ứng phong cách mạnh mẽ, chẳng hạn như tóc tím theo phong cách Arcane. Mặt khác, VToonify-D thực hiện tốt hơn việc duy trì các đặc điểm trên khuôn mặt. Pix2pixHD có hiện tượng nhấp nháy và giả khi so sánh với VToonify-D.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
AltLayer bước vào giai đoạn thứ hai của sáng kiến ​​đặt cược, giới thiệu mã thông báo reALT
thị trường Báo cáo tin tức Công nghệ
AltLayer bước vào giai đoạn thứ hai của sáng kiến ​​đặt cược, giới thiệu mã thông báo reALT
2 Tháng Năm, 2024
Chuỗi BNB công bố Báo cáo quý 1 năm 2024, nhấn mạnh mức giảm giá trị 55.8%, trong khi BSC TVL tăng vọt 70.8%
thị trường Báo cáo tin tức Công nghệ
Chuỗi BNB công bố Báo cáo quý 1 năm 2024, nhấn mạnh mức giảm giá trị 55.8%, trong khi BSC TVL tăng vọt 70.8%
2 Tháng Năm, 2024
Kaia của Naver và Kakao: Công ty Blockchain châu Á mới sẵn sàng phá vỡ thị trường tiền điện tử toàn cầu
Kinh doanh Phần mềm Câu chuyện và đánh giá Công nghệ
Kaia của Naver và Kakao: Công ty Blockchain châu Á mới sẵn sàng phá vỡ thị trường tiền điện tử toàn cầu
2 Tháng Năm, 2024
Aave Labs công bố đề xuất 'Aave 2030' bao gồm việc ra mắt giao thức Aave V4
Kinh doanh Báo cáo tin tức Công nghệ
Aave Labs công bố đề xuất 'Aave 2030' bao gồm việc ra mắt giao thức Aave V4
2 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH