Báo cáo tin tức Công nghệ
Tháng Chín 19, 2023

Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao

Một tweet gần đây của tác giả bài báo có tựa đề “Würstchen” (tiếng Đức nghĩa là “Xúc xích”) đã thu hút sự chú ý của những người đam mê cũng như các chuyên gia. Dòng tweet đã chia sẻ kết quả thú vị của việc tạo ra hình ảnh bằng mẫu Würstchen V2 mới.

Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao
Sản phẩm liên quan: Midjourney 5.2 và Stable Diffusion Bản cập nhật SDXL 0.9 để tạo văn bản thành hình ảnh sáng tạo

Würstchen nhanh và hiệu quả, tạo ra hình ảnh nhanh hơn các mô hình như Stable Diffusion XL trong khi sử dụng ít bộ nhớ hơn. Nó cũng giúp giảm chi phí đào tạo, với Würstchen v1 chỉ cần 9,000 giờ đào tạo GPU ở độ phân giải 512×512, so với 150,000 giờ GPU dành cho Stable Diffusion 1.4. Việc giảm chi phí 16 lần này không chỉ mang lại lợi ích cho các nhà nghiên cứu thực hiện các thí nghiệm mới mà còn mở ra cơ hội cho nhiều tổ chức hơn đào tạo những mô hình như vậy. Würstchen v2 sử dụng 24,602 giờ GPU, khiến nó rẻ hơn 6 lần so với SD1.4 vốn chỉ được đào tạo ở độ phân giải 512×512.

Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao
Một tính năng nổi bật ngay lập tức thu hút sự chú ý của cộng đồng AI là tốc độ ấn tượng của Würstchen V2. Theo tác giả, việc tạo bốn hình ảnh 1024×2048 bằng mô hình này chỉ mất 7 giây. Để dễ hình dung, mô hình SDXL sẽ cần 40 giây tương đối chậm để đạt được nhiệm vụ tương tự.

Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao
Würstchen V1, được giới thiệu trước đây, chia sẻ nền tảng của nó với SDXL dưới dạng tiềm ẩn Mô hình khuếch tán nhưng kết hợp kiến ​​trúc Unet nhanh hơn. Khi cộng đồng háo hức mong đợi thêm thông tin chi tiết về kiến ​​trúc của Würstchen V2, chỉ riêng tốc độ được nâng cao đã đánh dấu đây là một bước phát triển đáng chú ý.

Würstchen V2 là một mô hình khuếch tán hoạt động trong không gian hình ảnh tiềm ẩn được nén cao, giảm chi phí tính toán cho việc đào tạo và suy luận theo mức độ lớn. Nó sử dụng một thiết kế mới có thể đạt được độ nén không gian 42x, một kỳ tích chưa từng thấy trước đây. Würstchen sử dụng phương pháp nén hai giai đoạn, Giai đoạn A và Giai đoạn B, giải mã các hình ảnh đã nén trở lại không gian pixel. Mô hình thứ ba, Giai đoạn C, được học trong không gian tiềm ẩn được nén ở mức độ cao, yêu cầu các phân số điện toán được sử dụng cho các mô hình hoạt động tốt nhất hiện tại, đồng thời cho phép suy luận rẻ hơn và nhanh hơn.

Würstchen V2 bao gồm hai giai đoạn khuếch tán:

  • Giai đoạn A: Giai đoạn này liên quan đến việc truyền bá có điều kiện bằng văn bản và có tới 1 tỷ thông số đáng kinh ngạc. Khả năng tăng tốc ở đây đạt được thông qua các kỹ thuật nén cực cao. Đáng chú ý, thay vì kích thước mã ẩn là 128x128x4 như trong SDXL, Würstchen V2 ban đầu hoạt động ở độ phân giải 24x24x16. Điều này có nghĩa là ít pixel hơn nhưng nhiều kênh hơn, giúp tăng tốc độ đáng kể.
  • Giai đoạn B: Đây là mô hình khuếch tán được trang bị 600 triệu thông số, chịu trách nhiệm giải nén hình ảnh từ 24×24 xuống độ phân giải 128×128.

Hoàn tất quá trình là bộ giải mã với 20 triệu tham số biến mã ẩn thành hình ảnh được hiển thị.

Lợi ích thiết thực nổi bật ngay lập tức là tốc độ vượt trội của Würstchen V2. Nó hoạt động với tốc độ nhanh hơn 2-2.5 lần so với SDXL, một tiến bộ đáng chú ý trong lĩnh vực Tạo ảnh AI.

Giống như bất kỳ sự đổi mới công nghệ nào, có thể có sự đánh đổi. Về chất lượng hình ảnh, một số chuyên gia cho rằng có hơi thua thiệt một chút, mặc dù vẫn chờ đợi một sự so sánh toàn diện và trung thực để đưa ra bằng chứng cụ thể.

Dưới đây là các ví dụ về chuyển văn bản thành hình ảnh được tạo:

Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao
Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao
Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao
Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao
Mẫu Würstchen V2 giành chiến thắng Stable Diffusion XL với tốc độ ấn tượng để tạo ra hình ảnh có độ phân giải cao

Đọc thêm các chủ đề liên quan:

Trách nhiệm công ty

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
THÔNG TIN MỚI NHẤT

Sự bình lặng trước cơn bão Solana: Biểu đồ, Cá voi và Tín hiệu trên chuỗi đang nói gì hiện nay

Solana đã chứng minh được hiệu suất mạnh mẽ, nhờ vào việc áp dụng ngày càng tăng, sự quan tâm của các tổ chức và các mối quan hệ đối tác quan trọng, đồng thời phải đối mặt với tiềm năng ...

Biết thêm

Tiền điện tử vào tháng 2025 năm XNUMX: Các xu hướng chính, sự thay đổi và những gì sắp tới

Vào tháng 2025 năm XNUMX, không gian tiền điện tử tập trung vào việc củng cố cơ sở hạ tầng cốt lõi, với việc Ethereum chuẩn bị cho Pectra ...

Biết thêm
Đọc thêm
Tìm hiểu thêm
Eightco huy động được 125 triệu đô la Mỹ từ các nhà đầu tư tổ chức, dẫn đầu bởi Bitmine, ARK Invest và Payward, nhằm đẩy nhanh các khoản đầu tư vào công nghệ thế hệ mới.
Kinh doanh Báo cáo tin tức Công nghệ
Eightco huy động được 125 triệu đô la Mỹ từ các nhà đầu tư tổ chức, dẫn đầu bởi Bitmine, ARK Invest và Payward, nhằm đẩy nhanh các khoản đầu tư vào công nghệ thế hệ mới.
13 Tháng ba, 2026
CZ phản bác tuyên bố về giá trị tài sản ròng của Forbes; Những người có ảnh hưởng hàng đầu trong lĩnh vực tiền điện tử giàu có đến mức nào?
Kinh doanh Thị Trường Báo cáo tin tức Công nghệ
CZ phản bác tuyên bố về giá trị tài sản ròng của Forbes; Những người có ảnh hưởng hàng đầu trong lĩnh vực tiền điện tử giàu có đến mức nào?
13 Tháng ba, 2026
Từ Tăng trưởng đến Sự Chắc chắn: Buổi trò chuyện thân mật tại HSC Asset Management khám phá những biến động thị trường và ảnh hưởng toàn cầu của Trung Quốc.
Mùa Hack Ý kiến Kinh doanh Phong cách sống Báo cáo tin tức Công nghệ
Từ Tăng trưởng đến Sự Chắc chắn: Buổi trò chuyện thân mật tại HSC Asset Management khám phá những biến động thị trường và ảnh hưởng toàn cầu của Trung Quốc.
13 Tháng ba, 2026
Nhà nghiên cứu AI Samuele Marro của Đại học Oxford bàn về AI phi tập trung và Blockchain: Khi nào sự tích hợp tạo ra giá trị—nhưng lại hạn chế sự đổi mới
Phỏng vấn Công nghệ
Nhà nghiên cứu AI Samuele Marro của Đại học Oxford bàn về AI phi tập trung và Blockchain: Khi nào sự tích hợp tạo ra giá trị—nhưng lại hạn chế sự đổi mới
13 Tháng ba, 2026
CRYPTOMERIA LABS PTE. CÔNG TY TNHH