Báo cáo tin tức Công nghệ
27 Tháng Bảy, 2023

Stability AI Ra mắt Stable Diffusion XL 1.0 để nhanh chóng tạo ra hình ảnh 1 Megapixel

Tóm lại

Stability AI đã phát hành sản phẩm mới nhất của mình, SDXL 1.0, một công cụ tạo văn bản thành hình ảnh với chất lượng hình ảnh được cải thiện và giao diện thân thiện với người dùng.

Với 3.5 tỷ tham số, nó có thể tạo ra hình ảnh 1 megapixel ở các tỷ lệ khung hình khác nhau.

Mô hình được thiết kế để hợp lý hóa các chuyển văn bản thành hình ảnh quá trình tạo và bao gồm các tính năng tinh chỉnh, chẳng hạn như ControlNet, bắt nguồn từ nghiên cứu của Đại học Stanford.

SDXL 1.0 được tối ưu hóa cho GPU tiêu dùng có dung lượng VRAM 8GB và có hiệu quả tương đương trên các phiên bản đám mây có giá hợp lý.

Phần mềm cung cấp khả năng tinh chỉnh nâng cao, cho phép tạo LoRA tùy chỉnh hoặc các điểm kiểm tra với chi phí dữ liệu giảm.

Cộng đồng AI có thể mong đợi các bản cập nhật trong tương lai gần và SDXL 1.0 có thể tạo ra các khái niệm nâng cao, chẳng hạn như các chi tiết phức tạp hoặc bố cục không gian phức tạp.

Công cụ này là nguồn mở có thể truy cập trên GitHub, thúc đẩy tính minh bạch và cộng tác trong cộng đồng.

Stable Diffusion XL 1.0 (SDXL 1.0), sản phẩm mới nhất từ Stability AI, cuối cùng đã được phát hành. Công cụ này, được định vị là sự phát triển gần đây nhất trong việc tạo văn bản thành hình ảnh, nổi bật nhờ chất lượng hình ảnh được cải thiện và giao diện thân thiện với người dùng.

Stability AI Ra mắt Stable Diffusion XL 1.0 để nhanh chóng tạo ra hình ảnh 1 Megapixel
Tín dụng: ổn định.ai
Sản phẩm liên quan: Cổ phiếu NVIDIA tăng 26% sau khi có thu nhập Q1 cao nhờ nhu cầu ngày càng tăng đối với GPU AI

Trong khi nhiều người trong ngành công nghiệp AI tiếp tục cải thiện nền tảng của họ, Stability AIViệc phát hành SDXL 1.0 gần đây cho thấy một tiến bộ đầy hứa hẹn. 3.5 tỷ thông số ấn tượng của mô hình cho phép nó nhanh chóng sản xuất Hình ảnh 1 megapixel ở các tỷ lệ khung hình khác nhau. Joe Penna, giám đốc học máy ứng dụng tại Stability AI, nhấn mạnh khả năng của mô hình trong cuộc trò chuyện với TechCrunch. Anh ấy nhấn mạnh cách nó có thể được tùy chỉnh và cách bạn có thể điều chỉnh các khái niệm và phong cách hình ảnh bằng cách sử dụng các tín hiệu xử lý ngôn ngữ tự nhiên cơ bản. Với sự trợ giúp của các tính năng này, nhiệm vụ của người dùng có thể được thực hiện dễ dàng hơn trong khi vẫn tuân theo các hướng dẫn rõ ràng để tạo các thiết kế phức tạp.

Stability AI dường như đã giải quyết các thách thức phổ biến trong lĩnh vực AI, đặc biệt liên quan đến việc tạo văn bản. Đáng chú ý, nhiều mô hình chuyển văn bản thành hình ảnh tiên tiến thường gặp khó khăn khi được giao nhiệm vụ tạo văn bản dễ đọc, đặc biệt là trong các phong cách phức tạp như thư pháp. Tuy nhiên, SDXL 1.0 đã thể hiện sự thành thạo trong việc tạo văn bản nâng cao.

Điều làm SDXL 1.0 khác biệt hơn nữa là vị trí cạnh tranh của nó với các đối thủ lớn khác như Midjourney và Con đom đóm của Adobe dịch vụ. Mô hình mới nhấn mạnh các quy trình tinh chỉnh hình ảnh được cải thiện, dẫn đến màu sắc phong phú hơn, ánh sáng vượt trội và độ tương phản được nâng cao. Ngoài ra, việc bao gồm một tính năng tinh chỉnh tạo điều kiện thuận lợi cho việc tạo ra các hình ảnh phù hợp.

Quá trình phát triển của SDXL 1.0 đã tận dụng phương pháp đào tạo hợp lý, được hưởng lợi từ cơ sở tham số lớn của nó, định vị nó như một nền tảng lý tưởng cho các công cụ và khả năng khác nhau. Xây dựng các thuộc tính của nó, Emad Mostaque, Giám đốc điều hành của Stability AI, tuyên bố rằng SDXL 1.0 đã được chế tạo một cách tỉ mỉ để hợp lý hóa tạo văn bản thành hình ảnh quá trình. Điều này đã được làm phong phú thêm với ControlNet, bắt nguồn từ nghiên cứu của Đại học Stanford, tạo điều kiện thuận lợi cho các khả năng tổng hợp và tinh chỉnh nâng cao.

Một tính năng đáng chú ý của mẫu SDXL 1.0 là thiết kế lấy người dùng làm trung tâm. Trái ngược với việc yêu cầu các lời nhắc dài dòng để mang lại kết quả mong muốn, mô hình này cho phép người dùng đưa ra các chỉ thị gồm nhiều phần phức tạp, nắm bắt ý định một cách ngắn gọn với ít từ hơn so với các mô hình trước đó. Hiện tại, bạn có thể truy cập mô hình đổi mới này thông qua nhiều nền tảng, bao gồm các dịch vụ Amazon Bedrock và Amazon SageMaker Jumpstart.

Hiệu suất nâng cao trên GPU tiêu dùng và các tính năng tinh chỉnh nâng cao

Hình ảnh được tạo SDXL 1.0
Hình ảnh được tạo SDXL 1.0
Sản phẩm liên quan: Stability AI tăng 101 triệu đô la, đóng định giá ở mức 1 tỷ đô la

Được thiết kế có tính đến khả năng tương thích, SDXL 1.0 được tối ưu hóa cho GPU tiêu dùng có dung lượng VRAM 8GB và có hiệu quả tương đương trên các phiên bản đám mây có giá hợp lý.

Các tính năng và khả năng tương thích:

Việc ra mắt SDXL 1.0 thể hiện cam kết của Stability trong việc đảm bảo các giải pháp AI hiệu quả và dễ tiếp cận cho người dùng. Một trong những điểm chính của thông báo là khả năng của phần mềm hoạt động trơn tru trên các GPU tiêu dùng tiêu chuẩn. Đối với người dùng, điều này có nghĩa là tiềm năng cho hiệu suất tối ưu mà không cần phần cứng cao cấp hoặc chuyên dụng.

Cải tiến trong tinh chỉnh:

Tính ổn định đã kết hợp các tính năng trong SDXL 1.0 giúp đơn giản hóa quy trình đào tạo lại mô hình cho các bộ dữ liệu duy nhất. Mô hình hiện tại cho phép tạo LoRA tùy chỉnh hoặc các điểm kiểm tra với chi phí dữ liệu giảm dần, mở đường cho việc điều chỉnh mô hình hiệu quả hơn và nhanh hơn cho các nhu cầu cụ thể. Hơn nữa, có một gợi ý về tương lai khi Stability AI nhóm đang trong quá trình phát triển các điều khiển nâng cao cho các cấu trúc, kiểu và bố cục dành riêng cho nhiệm vụ. Cụ thể, T2I/ControlNet, chuyên biệt cho SDXL, sắp xuất hiện. Mặc dù những tiến bộ này vẫn đang trong giai đoạn tiền thử nghiệm, nhưng cộng đồng AI và người dùng có thể mong đợi các bản cập nhật trong tương lai gần.

Kết xuất các khái niệm nâng cao:

SDXL 1.0 thể hiện khả năng tạo ra các khái niệm mà trước đây là thách thức đối với các mô hình hình ảnh. Điều này bao gồm hiển thị các chi tiết phức tạp như bàn tay và văn bản hoặc thậm chí là các bố cục không gian phức tạp hơn, chẳng hạn như cảnh mô tả một người phụ nữ ở hậu cảnh đang đuổi theo một con chó ở tiền cảnh. Tính năng này đặc biệt quan trọng vì nó cho thấy một bước nhảy vọt trong khả năng diễn giải và hiển thị các tình huống nhiều sắc thái và nhiều khía cạnh của phần mềm.

Khả năng truy cập mã nguồn mở:

Đối với các nhà phát triển và những người đam mê muốn tìm hiểu sâu hơn, Ổn định đã cung cấp các trọng số và mã cho SDXL 1.0 trên GitHub. Động thái này không chỉ thúc đẩy tính minh bạch mà còn khuyến khích sự phát triển hợp tác và đổi mới trong cộng đồng.

Dùng thử:

Đối với những người muốn kiểm tra khả năng của SDXL 1.0, Ổn định đã tích hợp nó vào các nền tảng như DreamStudio và ClipDrop. Ngoài ra, các phiên tương tác và bản trình diễn tiềm năng có sẵn thông qua Discord, cho phép người dùng trực tiếp trải nghiệm các tính năng của công cụ.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Từ Ripple đến DAO xanh lớn: Các dự án tiền điện tử đóng góp cho hoạt động từ thiện như thế nào

Hãy cùng khám phá các sáng kiến ​​khai thác tiềm năng của tiền tệ kỹ thuật số cho mục đích từ thiện.

Biết thêm

AlphaFold 3, Med-Gemini và những người khác: Cách AI biến đổi hoạt động chăm sóc sức khỏe vào năm 2024

AI biểu hiện theo nhiều cách khác nhau trong chăm sóc sức khỏe, từ việc khám phá các mối tương quan di truyền mới đến hỗ trợ các hệ thống phẫu thuật bằng robot...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
10 công cụ AI miễn phí hàng đầu để tạo nội dung, chỉnh sửa video và hơn thế nữa
AI Wiki Tiêu Đào tạo Phong cách sống Phần mềm Công nghệ
10 công cụ AI miễn phí hàng đầu để tạo nội dung, chỉnh sửa video và hơn thế nữa
14 Tháng Năm, 2024
Ủy ban Chứng khoán Hồng Kông cảnh báo về các trò lừa đảo Deepfake nhắm vào ngành công nghiệp tiền điện tử: Ý nghĩa đối với sự an toàn của nhà đầu tư
Phong cách sống Bảo mật Wiki Phần mềm Câu chuyện và đánh giá Công nghệ
Ủy ban Chứng khoán Hồng Kông cảnh báo về các trò lừa đảo Deepfake nhắm vào ngành công nghiệp tiền điện tử: Ý nghĩa đối với sự an toàn của nhà đầu tư
14 Tháng Năm, 2024
Ripple và Evmos hợp tác phát triển chuỗi bên EVM sổ cái XRP với công nghệ Evmos
Kinh doanh Báo cáo tin tức Công nghệ
Ripple và Evmos hợp tác phát triển chuỗi bên EVM sổ cái XRP với công nghệ Evmos
14 Tháng Năm, 2024
5ireChain khởi xướng 'Testnet Thunder: GA' được khuyến khích để kiểm tra sức chịu đựng của mạng, mời người dùng tham gia Airdrop Thưởng
Báo cáo tin tức Công nghệ
5ireChain khởi xướng 'Testnet Thunder: GA' được khuyến khích để kiểm tra sức chịu đựng của mạng, mời người dùng tham gia Airdrop Thưởng
14 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH