20 Tháng ba, 2023

Mô hình chuyển văn bản thành hình ảnh mới GigaGAN có thể tạo hình ảnh 4K trong 3.66 giây

Được xuất bản: ngày 20 tháng 2023 năm 4 lúc 10 giờ sáng Cập nhật: ngày 20 tháng 2023 năm 4 lúc 11 giờ sáng

Tóm lại

Các nhà nghiên cứu đã phát triển một mô hình chuyển văn bản thành hình ảnh mới gọi là GigaGAN có thể tạo ra hình ảnh 4K trong 3.66 giây.

Nó dựa trên khung GAN (mạng đối thủ chung), là một loại mạng lưới thần kinh có thể học cách tạo dữ liệu tương tự như tập dữ liệu huấn luyện. GigaGAN có thể tạo hình ảnh 512px trong 0.13 giây, nhanh hơn 10 lần so với mô hình hiện đại trước đây và có không gian tiềm ẩn không bị rối, liên tục và có thể kiểm soát được.

Nó cũng có thể được sử dụng để đào tạo một bộ lấy mẫu nâng cấp hiệu quả, chất lượng cao hơn.

Các nhà nghiên cứu đã phát triển một mô hình chuyển văn bản thành hình ảnh mới được gọi là GIGAGAN có thể tạo ra Hình ảnh 4K trong 3.66 giây. Đây là một cải tiến lớn so với các mô hình chuyển văn bản thành hình ảnh hiện có, có thể mất vài phút hoặc thậm chí hàng giờ để tạo một hình ảnh.

Mô hình chuyển văn bản thành hình ảnh mới GigaGAN có thể tạo hình ảnh 4K ở 3.66 giây

GigaGAN dựa trên khung GAN (mạng đối nghịch chung), là một loại mạng thần kinh có thể học cách tạo dữ liệu tương tự như tập dữ liệu huấn luyện. GAN đã được sử dụng để tạo hình ảnh chân thực về khuôn mặt, phong cảnh và thậm chí cả hình ảnh Chế độ xem phố.

Tìm hiểu thêm: Hơn 5 mẫu AI chuyển văn bản thành hình ảnh được mong đợi nhất năm 2023

Mô hình mới đã được đào tạo trên tập dữ liệu gồm 1 tỷ hình ảnh, lớn hơn nhiều so với các tập dữ liệu được sử dụng để đào tạo các mô hình chuyển văn bản thành hình ảnh trước đó. Do đó, GigaGAN có thể tạo hình ảnh 512px trong 0.13 giây, nhanh hơn 10 lần so với mô hình chuyển văn bản thành hình ảnh hiện đại trước đây.

Ngoài ra, GigaGAN đi kèm với một không gian tiềm ẩn không bị rối, liên tục và có thể kiểm soát được. Điều này có nghĩa là GigaGAN có thể tạo hình ảnh có nhiều phong cách khác nhau và hình ảnh được tạo có thể được kiểm soát ở một mức độ nào đó. Ví dụ: GigaGAN có thể tạo hình ảnh giữ nguyên bố cục của kiểu nhập văn bản, điều này rất quan trọng đối với các ứng dụng, chẳng hạn như khi tạo hình ảnh bố cục sản phẩm từ mô tả văn bản.

GigaGAN cũng có thể được sử dụng để đào tạo một bộ lấy mẫu hiệu quả, chất lượng cao hơn. Điều này có thể được áp dụng cho hình ảnh thực hoặc đầu ra của các mô hình văn bản thành hình ảnh.

Nhánh mã hóa văn bản, mạng ánh xạ kiểu, mạng tổng hợp đa quy mô, sự chú ý ổn định và lựa chọn hạt nhân thích ứng đều là một phần của trình tạo GigaGAN. Các nhà phát triển bắt đầu nhánh mã hóa văn bản bằng cách trích xuất các phần nhúng văn bản bằng mô hình CLIP được đào tạo trước và các lớp chú ý đã học T. Tương tự như Phong cáchGAN, quá trình nhúng được chuyển đến mạng ánh xạ kiểu M, tạo ra vectơ kiểu w. Để tạo một kim tự tháp hình ảnh, mạng tổng hợp hiện sử dụng mã kiểu làm điều chế và nhúng văn bản làm chú ý. Hơn nữa, các nhà phát triển giới thiệu lựa chọn hạt nhân thích ứng mẫu để chọn hạt tích chập một cách thích ứng dựa trên điều kiện hóa văn bản đầu vào.

Bộ phân biệt, giống như bộ tạo, có hai nhánh để xử lý hình ảnh và điều chỉnh văn bản. Nhánh văn bản, giống như trình tạo, xử lý văn bản. Nhánh hình ảnh được cung cấp một kim tự tháp hình ảnh và được giao nhiệm vụ đưa ra các dự đoán độc lập cho từng tỷ lệ hình ảnh. Hơn nữa, các dự đoán được thực hiện ở tất cả các tỷ lệ lớp lấy mẫu tiếp theo. Các tổn thất bổ sung cũng được sử dụng để khuyến khích sự hội tụ hiệu quả.

Như được hiển thị trong lưới nội suy, GigaGAN cho phép nội suy mượt mà giữa các lời nhắc. Bốn góc được tạo bằng cách sử dụng cùng một lời nhắc văn bản tiềm ẩn nhưng khác nhau.

Bởi vì GigaGAN duy trì một không gian tiềm ẩn không bị rối, các nhà phát triển có thể kết hợp phong cách thô của một mẫu với phong cách tinh tế của một mẫu khác. GigaGAN cũng có thể điều khiển kiểu trực tiếp bằng lời nhắc văn bản.

Đọc thêm bài viết liên quan:

tags:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.

Xem thêm bài viết

Damir Yalalov