VToonify: Mô hình AI thời gian thực để tạo video chân dung nghệ thuật
Tóm lại
Một khung VToonify mang tính cách mạng đã được các nhà phát triển phát triển để cung cấp khả năng chuyển kiểu video dọc có độ phân giải cao, được kiểm soát.
Để tạo ra những bức chân dung nghệ thuật tuyệt đẹp, khung này sử dụng các lớp có độ phân giải trung bình và cao của StyleGAN.
Nó cho phép mở rộng dựa trên StyleGAN hiện có mô hình toon hóa hình ảnh sang video.
Các nhà nghiên cứu từ Đại học Công nghệ Nanyang đã đã giới thiệu một khung VToonify mới để tạo chuyển kiểu video dọc có độ phân giải cao có thể kiểm soát được. VToonify tận dụng các lớp StyleGAN có độ phân giải trung bình và cao để hiển thị chân dung nghệ thuật chất lượng cao dựa trên các tính năng nội dung đa tỷ lệ được trích xuất bởi bộ mã hóa để bảo toàn chi tiết khung hình tốt hơn. Kết quả thử nghiệm cho thấy rằng khung của chúng tôi có thể tạo video có chất lượng cao nhất quán và biểu cảm khuôn mặt mong muốn mà không cần căn chỉnh khuôn mặt hoặc hạn chế kích thước khung hình.
Kết quả là, một kiến trúc tích chập hoàn toàn chấp nhận các khuôn mặt không được căn chỉnh trong các video có kích thước khác nhau sẽ tạo ra các khuôn mặt hoàn chỉnh với các chuyển động tự nhiên. Khung VToonify kế thừa các tính năng hấp dẫn của các mô hình này để kiểm soát phong cách linh hoạt về màu sắc và cường độ. Nó tương thích với các mô hình hiệu chuẩn hóa hình ảnh dựa trên StyleGAN hiện có để mở rộng chúng sang hiệu chuẩn hóa video. Tác phẩm này giới thiệu hai phiên bản của VToonify để chuyển kiểu video dọc dựa trên bộ sưu tập và dựa trên mẫu mực, tương ứng, được xây dựng dựa trên Toonify và DualStyleGAN.
Các kết quả thử nghiệm mở rộng cho thấy khung VToonify được đề xuất vượt trội so với các phương pháp cạnh tranh trong việc sản xuất phim chân dung nghệ thuật với các điều khiển kiểu có thể điều chỉnh, có chất lượng tuyệt vời và nhất quán theo thời gian. Kiểm tra GitHub để biết thêm chi tiết.
Bài viết liên quan: OpenAI đang nghiên cứu tạo mô hình AI cho video |
Để cung cấp khả năng chuyển kiểu video chân dung có độ phân giải cao có thể kiểm soát được, VToonify kết hợp các ưu điểm của khung dịch hình ảnh và khung dựa trên StyleGAN.
(A) Để hỗ trợ kích thước đầu vào thay đổi, một hệ thống dịch hình ảnh sử dụng các mạng tích chập hoàn toàn. Tuy nhiên, thật khó để truyền đạt phong cách có độ phân giải cao và được kiểm soát khi dạy từ đầu.
(B) Khung dựa trên StyleGAN, chỉ hỗ trợ kích thước hình ảnh cố định và tổn thất chi tiết, sử dụng mô hình StyleGAN được đào tạo trước để truyền kiểu có thể kiểm soát và độ phân giải cao.
(C) Để tạo kiến trúc bộ tạo-bộ mã hóa xoắn hoàn toàn giống với cấu trúc của khung dịch hình ảnh, hệ thống kết hợp của chúng tôi mở rộng StyleGAN bằng cách xóa tính năng đầu vào có kích thước cố định và các lớp có độ phân giải thấp.
Để duy trì các chi tiết của khung, các nhà phát triển đào tạo một bộ mã hóa để trích xuất các tính năng nội dung đa tỷ lệ từ khung đầu vào dưới dạng điều kiện nội dung bổ sung. VToonify kế thừa tính linh hoạt trong điều khiển kiểu của mô hình StyleGAN bằng cách đưa nó vào trình tạo để chắt lọc cả dữ liệu và mô hình của nó.
Bài viết liên quan: Lambda Labs đã công bố bộ trộn hình ảnh AI có thể kết hợp tối đa năm hình ảnh |
Khung VToonify kế thừa các đặc điểm hấp dẫn để kiểm soát kiểu linh hoạt từ các mô hình chỉnh sửa hình ảnh dựa trên StyleGAN hiện tại và tương thích với chúng để mở rộng chúng sang video toon hóa. VToonify của chúng tôi cung cấp các tính năng sau bằng cách sử dụng mô hình DualStyleGAN làm nền tảng StyleGAN:
- Chuyển phong cách từ các cấu trúc dựa trên mẫu mực;
- Sửa đổi mức độ phong cách;
- Chuyển kiểu màu dựa trên mẫu.
Đọc thêm về AI:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.