Báo cáo tin tức
Tháng Mười Một 06, 2022

ERNIE-ViLG 2.0: Mô hình chuyển văn bản thành hình ảnh mới của Baidu vượt trội hơn Dalle-2 và Stable Diffusion

Tóm lại

Cả Dalle-2 và Stable Diffusion vượt trội hơn hẳn so với ERNIE-ViLG 2.0

Ernie-Vilg 2.0 là mô hình chuyển văn bản thành hình ảnh mang lại hiệu suất tốt hơn Dalle-2 và Stable Diffusion, hai trong số các mô hình chuyển văn bản thành hình ảnh phổ biến nhất hiện có. Mô hình mới được thiết kế và đào tạo bởi một nhóm các nhà nghiên cứu từ Baidu, và kết quả thật ngoạn mục.

Mô hình chuyển văn bản thành hình ảnh mới ERNIE-ViLG 2.0 vượt trội hơn Dalle-2 và Stable Diffusion
Hình ảnh được tạo bởi ERNIE-ViLG 2.0

Kết quả đã chứng minh rằng ERNIE-ViLG 2.0 vượt trội đáng kể so với Dalle-2 và Stable Diffusion. Đây là một thành tựu quan trọng và thể hiện sức mạnh của khung ERNIE. Các Metaverse Post nhóm đã so sánh ERNIE-ViLG 2.0 với Stable Diffusion dưới đây:

Ernie-Vilg 2.0
Stable Diffusion
Ernie-Vilg 2.0
Stable Diffusion
Ernie-Vilg 2.0
Stable Diffusion
Ernie-Vilg 2.0
Stable Diffusion
Ernie-Vilg 2.0

Những kết quả này hỗ trợ mạnh mẽ cho giả thuyết rằng ERNIE-ViLG 2.0 hiệu quả hơn hệ thống chuyển văn bản thành hình ảnh hơn cả Dalle-2 và Stable Diffusion.

Kiến trúc Unet từ Stable Diffusion được lấy làm cơ sở, nhưng với những thay đổi:

  • Một hỗn hợp các chuyên gia khử nhiễu: Có 10 mạng thần kinh thay vì chỉ một mạng, mỗi mạng chỉ chịu trách nhiệm cho một số bước khuếch tán nhất định.
  • Kiến thức văn bản: Tự động tính lại trọng số cho các từ trong truy vấn để từ khóa có trọng số cao hơn.
  • Kiến thức thị giác: Trong quá trình đào tạo, các đối tượng được phát hiện trên các kết quả tạo trung gian và trọng số của hàm mất mát trên các vùng có đối tượng được tăng lên.

Kết quả là, lớn nhất thế giới mô hình văn bản thành hình ảnh đưa ra 24 tỷ tham số (lớn gấp 10 lần SD) để huấn luyện mô hình.

So với các mẫu trước đó, ERNIE-ViLG 2.0 vượt trội hơn rất nhiều về chất lượng hình ảnh và khả năng khớp hình ảnh với văn bản khi thử nghiệm đồng thời trên song ngữ ViLG-300 nhanh chóng do một người đặt ra.

Lời nhắc được dịch tự động từ tiếng Trung sang tiếng Anh một cách đơn giản trong ÔmKhuôn Mặt bản demo công khai trước khi được gửi vào AI. Rất nhiều tính năng chảy từ này.

  • ERNIE không biết các nhân vật của công chúng quốc tế. Chẳng hạn, ERNIE không biết Arnold Schwarzenegger. Nó chắc chắn có yêu thích địa phương ở Trung Quốc.
  • Kết quả là, phương pháp sử dụng tên người nổi tiếng trong lời nhắc sẽ nâng cao đáng kể chất lượng của khuôn mặt thất bại
  • Bạn có thể gặp phải một số biến dạng do bản dịch từ tiếng Trung, vì vậy có thể có một số bất ngờ dành cho bạn nếu bạn không nói được tiếng Trung.
  • Nó thậm chí không biết gì về Greg Rutkowski.

Đọc các bài liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH