Báo cáo tin tức Công nghệ
10 Tháng Tư, 2023

Stability AI Phát hành một mô hình mới được gọi là SDXL Beta

Tóm lại

Stability AI đã phát hành một mô hình mới gọi là SDXL Beta (Stable Diffusion XL Beta). Nó là một mô hình lớn hơn với nhiều tham số hơn và một số cải tiến chưa biết. Nó có sẵn tại DreamStudio, Stability AItrình tạo hình ảnh chính thức của Google và sử dụng các thuật toán nâng cao cũng như kỹ thuật học sâu để tạo hình ảnh tuyệt đẹp.

Stability AI đã tiết lộ bản xem trước của một mô hình mới có tên SDXL Beta, viết tắt của Stable Diffusion XL Beta. Cho đến nay, công ty đã không chia sẻ nhiều thông tin về mô hình, nhưng nó có sẵn để thử nghiệm cho bất kỳ ai muốn làm như vậy. Có gì mới lạ về mô hình SDXL này cho stable diffusion? ưu điểm và nhược điểm của nó là gì? Hãy điều tra.

Tìm hiểu thêm: Midjourney và Dall-E Artist Styles Dump với các ví dụ: 130 kỹ thuật vẽ tranh AI nổi tiếng

Mô hình SDXL chính xác là gì?

Mô hình SDXL là một mô hình mới hiện đang được đào tạo. Nó còn lâu mới được hoàn thành, và vào thời điểm nó được phát hành, rất nhiều chi tiết về nó có thể thay đổi; đối với tất cả những gì chúng ta biết, nó thậm chí có thể không được gọi là mô hình SDXL. Tất cả những gì chúng ta biết là nó là một mô hình lớn hơn với nhiều thông số hơn và một số cải tiến chưa biết. Đó là mô hình v2, không phải mô hình v3 (bất kể điều đó có nghĩa là gì). Có thể những cải tiến trong mô hình v2 có thể cải thiện hiệu suất của hệ thống, nhưng nếu không có thêm thông tin, rất khó để xác định mức độ quan trọng của những cải tiến này. Ngoài ra, sẽ rất hữu ích nếu biết những thông số cụ thể nào đã được thêm vào hoặc điều chỉnh trong phiên bản này.

Mẫu SDXL hiện đang có sẵn tại DreamStudio, Stability AItrình tạo hình ảnh chính thức của. Chọn SDXL Beta từ menu kiểu máy để kiểm tra. Nó dường như sử dụng các thuật toán tiên tiến và kỹ thuật học sâu để tạo ra hình ảnh tuyệt đẹp hoàn hảo cho nhiều ứng dụng.

Mô hình SDXL chính xác là gì?

Cải tiến

văn bản dễ đọc. SDXL có khả năng tạo văn bản dễ đọc và đây có lẽ là tính năng nổi bật nhất của nó vì tính năng này không thể thực hiện được trong các mẫu v1 và v2.1 hiện có. Văn bản do SDXL tạo ra không phải lúc nào cũng chính xác như bạn có thể thấy trong Stable Diffusion Văn bản bên dưới. Tuy nhiên, nó vượt trội hơn nhiều so với v2.1 chứ chưa nói đến mẫu v1. Điều này là do SDXL sử dụng thuật toán học sâu nâng cao hơn cho phép nó hiểu và tạo ra các cấu trúc ngôn ngữ phức tạp hơn. Với sự phát triển hơn nữa, nó có khả năng trở nên chính xác và đáng tin cậy hơn nữa.

Lời nhắc: ảnh một người đàn ông đang cầm tờ giấy trắng có ghi “Không có hàng giả”
Lời nhắc: ảnh một người đàn ông đang cầm tờ giấy trắng có ghi “Không có hàng giả”
Hình ảnh một người phụ nữ tóc đỏ cầm tấm biển màu đen với phông chữ màu trắng có nội dung "Không đùa"
Lời nhắc: Hình ảnh một người phụ nữ tóc đỏ đang cầm một tấm biển màu đen với phông chữ màu trắng có nội dung “Không đùa giỡn”
Lời nhắc: Hình ảnh một người phụ nữ Trung Quốc đang ngồi trong rạp chiếu phim cầm một chiếc đĩa có viết từ "Pain and Plane" trên đó.
Lời nhắc: Hình ảnh một người phụ nữ Trung Quốc đang ngồi trong rạp chiếu phim cầm một chiếc đĩa có chữ “Pain and Plane” được viết trên đó.

Giải phẫu người. Việc tạo ra chính xác các hình người đúng về mặt giải phẫu từ lâu đã là một thách thức đối với stable diffusion. Sự hiện diện của các chi bổ sung hoặc thiếu là phổ biến. Inpainting thường được sử dụng để sửa chúng, hoặc gần đây hơn, bạn có thể sử dụng tính năng Open Pose của ControlNet để sao chép một tư thế từ một hình ảnh tham chiếu. Chúng tôi rất vui khi lưu ý rằng đây là điểm mà mô hình SDXL Beta đã được cải thiện. Mô hình SDXL Beta đã cho thấy sự cải thiện đáng kể trong việc sao chép chính xác các tư thế từ các hình ảnh tham chiếu. Đây có thể là một công cụ có giá trị cho các ứng dụng khác nhau như hoạt hình và thực tế ảo.

Hình ảnh một người phụ nữ trong trang phục thể thao đang quay bóng bằng tay phải
Lời nhắc: Hình ảnh một người phụ nữ trong trang phục thể thao đang quay quả bóng bằng tay phải
Ảnh về cậu bé ngồi dưới ánh trăng đỏ
Lời nhắc: Hình ảnh cậu bé ngồi dưới ánh trăng đỏ
Lời nhắc: Một bức ảnh cho thấy một ông già đang chạy trong rừng.

Phong cách chân dung. SDXL Beta tạo ra những bức ảnh chân dung tuyệt vời giống như ảnh chụp – đây là một bản nâng cấp so với phiên bản 1.5. Thuật toán cải tiến trong SDXL Beta nâng cao độ chính xác về màu sắc và chi tiết của ảnh chân dung, mang lại hình ảnh chân thực và tự nhiên hơn. Người dùng cũng có thể điều chỉnh mức độ sắc nét và độ bão hòa để đạt được hiệu ứng mong muốn.

Gợi ý: một bức tranh về một cậu bé và một cô bé
Gợi ý: một bức tranh về một cậu bé và một cô bé
Lời nhắc: một bức ảnh chân dung của một anh chàng béo
Lời nhắc: một bức ảnh chân dung của một anh chàng béo
Lời nhắc: một bức ảnh chụp một người phụ nữ từ những năm 80
Lời nhắc: một bức ảnh chụp một người phụ nữ từ những năm 80

song âm. Từ khóa Duotone luôn tạo ra ảnh đen trắng trong mô hình v1.5. Tuy nhiên, giờ đây, hình ảnh hai tông màu do SDXL Beta tạo ra có nhiều màu sắc khác nhau. Rõ ràng là so với các mô hình v1, khả năng giải thích lời nhắc đã được cải thiện, dẫn đến phản hồi chính xác và phù hợp hơn từ các mô hình v2, khiến chúng trở thành công cụ đáng tin cậy hơn cho các tác vụ xử lý ngôn ngữ tự nhiên.

chân dung theo phong cách Duotone của một con chó
Lời nhắc: chân dung theo phong cách Duotone của một con chó
phong cảnh đảo đôi
Lời nhắc: phong cảnh hai màu của hòn đảo
chân dung Duotone của người phụ nữ trẻ châu Phi
Lời nhắc: bức chân dung hai tông màu của người phụ nữ trẻ châu Phi

Phong cách nghệ thuật. Đã có một số điều chỉnh nhỏ, nhưng rất khó để xác định liệu mô hình mới có mang lại kết quả tốt hơn hay không vì chúng chỉ đơn giản là duy nhất. Có thể những điều chỉnh này là vấn đề sở thích cá nhân hoặc ý kiến ​​chủ quan, gây khó khăn cho việc đưa ra quyết định. defiđánh giá ban đầu về chất lượng của họ. Tuy nhiên, tính độc đáo của các điều chỉnh có thể đáng chú ý và đáng để khám phá thêm.

New York của Ivan Aivazovsky
v 1.5: New York của Ivan Aivazovsky
New York của Ivan Aivazovsky
SDXL: New York của Ivan Aivazovsky
Rừng già của Christopher Balaskas
v 1.5: Rừng già của Christopher Balaskas
Rừng già của Christopher Balaskas
SDXL: Rừng già của Christopher Balaskas

Kết luận

  • Stable Diffusion cuối cùng có thể tạo ra văn bản có ý nghĩa.
  • SDXL cung cấp hình ảnh thẩm mỹ hơn so với v2.1 và (ở mức độ thấp hơn) các mẫu v1.5.
  • Mô hình mới tạo ra hình ảnh chính xác hơn.
  • Giải phẫu con người đã được cải thiện.
  • Lời nhắc tiêu cực không cần thiết như trong v2.1.
  • Nó có thể tạo ra chân dung thực tế.
  • Một số điểm kỳ lạ trong mô hình sẽ được khắc phục trước khi phát hành.

Đọc thêm bài viết liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Ankr hợp tác với mạng lưới Talus của nền tảng chuỗi khối AI để mở khóa tính thanh khoản Bitcoin cho AI
Kinh doanh Báo cáo tin tức Công nghệ
Ankr hợp tác với mạng lưới Talus của nền tảng chuỗi khối AI để mở khóa tính thanh khoản Bitcoin cho AI
1 Tháng Năm, 2024
Binance Labs hỗ trợ các phòng thí nghiệm chuyển động để hỗ trợ Facebook tích hợp di chuyển trên các chuỗi khối
Kinh doanh Báo cáo tin tức Công nghệ
Binance Labs hỗ trợ các phòng thí nghiệm chuyển động để hỗ trợ Facebook tích hợp di chuyển trên các chuỗi khối
1 Tháng Năm, 2024
Giải pháp giao dịch Stablecoin mắt của quốc gia BRICS
Kinh doanh thị trường Câu chuyện và đánh giá Công nghệ
Giải pháp giao dịch Stablecoin mắt của quốc gia BRICS
1 Tháng Năm, 2024
Mạng Bitcoin L2 BOB tích hợp với LayerZero để nâng cao chức năng
Kinh doanh Báo cáo tin tức Công nghệ
Mạng Bitcoin L2 BOB tích hợp với LayerZero để nâng cao chức năng
1 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH