Báo cáo tin tức Công nghệ
Tháng Mười Một 17, 2022

Nvidia đã công bố eDiff-I: AI thế hệ mới để tổng hợp văn bản và hình ảnh với khả năng chuyển kiểu ngay lập tức

Tóm lại

Nvidia ra mắt eDiff-I để giúp các doanh nghiệp tạo ra những hình ảnh hấp dẫn, chất lượng cao

Kỹ thuật eDiff-I thường tạo ra chất lượng tổng hợp cao hơn DALL-E2 và Stable diffusion

eDiff-I là một công cụ tạo nội dung AI mới cung cấp khả năng tổng hợp văn bản thành hình ảnh chưa từng có cho các nhà tiếp thị và doanh nghiệp, như được công bố gần đây bởi Nvidia. Với eDiff-I, doanh nghiệp có thể nhanh chóng và dễ dàng tạo hình ảnh chất lượng cao, hấp dẫn mà không cần thiết bị đắt tiền hoặc trợ giúp chuyên nghiệp. eDiff-I sử dụng quá trình xử lý ngôn ngữ tự nhiên (NLP) để giải thích đầu vào của người dùng và tạo ra các hình ảnh tương ứng. Sau đó, AI sẽ phân tích các hình ảnh và chọn hình ảnh phù hợp nhất dựa trên ngữ cảnh. Kết quả là một hình ảnh chất lượng cao, chuyên nghiệp có thể được sử dụng cho nhiều mục đích khác nhau, chẳng hạn như tài liệu tiếp thị, bài đăng trên mạng xã hội, chiến dịch email, v.v.

eDiff-I là một AI thế hệ tiếp theo công cụ tạo nội dung cung cấp chưa từng có chuyển văn bản thành hình ảnh tổng hợp, chuyển kiểu nhanh và vẽ trực quan bằng từ ngữ. Là một mô hình khuếch tán để tạo hình ảnh trực quan từ văn bản, eDiff-I đề xuất đào tạo một nhóm các mạng khử nhiễu chuyên gia, mỗi mạng chuyên biệt cho một khoảng nhiễu cụ thể, để đáp ứng với phát hiện thực nghiệm rằng hành vi của các mô hình khuếch tán khác nhau ở các giai đoạn lấy mẫu khác nhau.

Nvidia đã công bố eDiff-I: AI thế hệ mới để tổng hợp văn bản và hình ảnh với khả năng chuyển kiểu ngay lập tức

Các nhúng văn bản T5, nhúng hình ảnh CLIP và nhúng văn bản CLIP cung cấp cơ sở cho khái niệm eDiff-I. Phương pháp này có thể tạo ra đồ họa chân thực để đáp ứng bất kỳ truy vấn văn bản nào.

Nó trình bày hai khả năng bổ sung ngoài việc tổng hợp văn bản thành hình ảnh: (1) chuyển kiểu, cho phép chúng tôi kiểm soát kiểu của mẫu được tạo bằng cách sử dụng hình ảnh kiểu tham chiếu và (2) "Vẽ bằng từ", một công cụ cho phép người dùng tạo hình ảnh bằng cách vẽ bản đồ phân đoạn trên canvas.

Pipeline
Pipeline

Quy trình này bao gồm một loạt ba mô hình khuếch tán: một mô hình cơ sở có thể tạo các mẫu có độ phân giải 64×64 và hai ngăn xếp siêu phân giải có thể tăng dần mẫu hình ảnh lên độ phân giải tương ứng là 256×256 và 1024×1024. Các mô hình tính toán T5 XXL và nhúng văn bản sau khi nhận được chú thích làm đầu vào. Những phần nhúng hình ảnh này có thể được sử dụng như một vectơ phong cách. Sau đó, đưa các phần nhúng này vào hệ thống xếp tầng của chúng tôi mô hình khuếch tán, dần dần tạo ra hình ảnh có độ phân giải 1024 x 1024.

Phương pháp tiếp cận eDiff-I luôn dẫn đến chất lượng tổng hợp tốt hơn khi so sánh với các thuật toán chuyển văn bản thành hình ảnh nguồn mở (Stable diffusion) và (DALL-E2).

Kết quả
Kết quả

Khi nhúng hình ảnh CLIP được sử dụng, phương pháp eDiff-I tạo điều kiện chuyển kiểu. eDiff-I lần đầu tiên trích xuất CLIP hình ảnh nhúng từ hình ảnh kiểu tham chiếu, có thể được sử dụng làm vectơ tham chiếu kiểu. Có thể nhìn thấy một tài liệu tham khảo về phong cách trong bảng điều khiển bên trái của hình bên dưới. Kết quả khi bật điều hòa kiểu được hiển thị trong bảng điều khiển trung tâm. Kết quả khi tắt điều chỉnh kiểu được hiển thị trong bảng điều khiển bên phải. Khi điều chỉnh kiểu được áp dụng, mô hình eDiff-I cũng tạo đầu ra đúng với kiểu của phụ đề đầu vào. Khi tắt điều chỉnh phong cách, các bức ảnh trông tự nhiên sẽ được tạo ra.

chuyển kiểu
chuyển kiểu

Bằng cách chọn các cụm từ và viết nguệch ngoạc chúng trên hình ảnh, người dùng phương pháp eDiff-I có thể thay đổi vị trí của những thứ được liệt kê trong dấu nhắc văn bản. Sau đó, mô hình sử dụng lời nhắc và bản đồ để tạo hình ảnh tương thích với cả chú thích và bản đồ đầu vào.

Đọc các bài liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Pantera Capital đầu tư vào TON Blockchain, bày tỏ sự tin tưởng vào tiềm năng mở rộng khả năng tiếp cận tiền điện tử của Telegram
Kinh doanh Báo cáo tin tức Công nghệ
Pantera Capital đầu tư vào TON Blockchain, bày tỏ sự tin tưởng vào tiềm năng mở rộng khả năng tiếp cận tiền điện tử của Telegram
2 Tháng Năm, 2024
Mitosis huy động được 7 triệu đô la tài trợ từ Amber Group và các dự án có tầm nhìn xa để nâng cao giao thức thanh khoản mô-đun của nó
Kinh doanh Báo cáo tin tức Công nghệ
Mitosis huy động được 7 triệu đô la tài trợ từ Amber Group và các dự án có tầm nhìn xa để nâng cao giao thức thanh khoản mô-đun của nó
2 Tháng Năm, 2024
Galxe hợp tác với Jambo để mở rộng khả năng tiếp cận toàn cầu tới Web3
Kinh doanh Báo cáo tin tức Công nghệ
Galxe hợp tác với Jambo để mở rộng khả năng tiếp cận toàn cầu tới Web3
2 Tháng Năm, 2024
Med-Gemini của Google sẵn sàng mang lại khởi đầu thuận lợi cho GPT-4 Với hiệu suất vượt trội trong chăm sóc sức khỏe
AI Wiki Tin tức Phần mềm Công nghệ
Med-Gemini của Google sẵn sàng mang lại khởi đầu thuận lợi cho GPT-4 Với hiệu suất vượt trội trong chăm sóc sức khỏe
2 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH