Báo cáo tin tức Công nghệ
Tháng Mười Một 24, 2022

Stability AI'S Stable Diffusion 2 Thuật toán cuối cùng cũng được công khai: mô hình deep2img mới, trình nâng cấp siêu phân giải, không có nội dung người lớn

Tóm lại

Stable Diffusion Mô hình 2.0 nhanh hơn, nguồn mở, có thể mở rộng, mạnh mẽ hơn mô hình trước đó

Stable Diffusion sẵn sàng cho GPU với các tính năng mới để hiển thị thời gian thực

hướng dẫn chuyên sâu stable diffusion kiểu mẫu – Image-to-image với những ý tưởng mới cho các ứng dụng sáng tạo

Stability AI có phát hành một bài báo mới trên blog của nó về Stable Diffusion 2. Trong đó, Stability AI đề xuất một thuật toán mới hiệu quả và mạnh mẽ hơn thuật toán trước trong khi so sánh nó với các phương pháp tiên tiến khác.

Mở AI Stable Diffusion 2 Thuật toán cuối cùng cũng được công khai: mô hình deep2img mới, trình nâng cấp siêu phân giải, không có nội dung người lớn

Bản gốc của CompVis Stable Diffusion Mô hình V1 cách mạng hóa bản chất của mã nguồn mở Mô hình AI và sản xuất hàng trăm mô hình và tiến bộ khác nhau trên khắp thế giới. Nó chứng kiến ​​một trong những lần leo lên 10,000 sao trên Github nhanh nhất, đạt 33,000 trong vòng chưa đầy hai tháng, nhanh hơn nhiều chương trình khác trên Github.

Bản gốc Stable Diffusion Bản phát hành V1 được dẫn dắt bởi đội ngũ năng động của Robin Rombach (Stability AI) và Patrick Esser (Runway ML) từ Nhóm CompVis tại LMU Munich, do Giáo sư Tiến sĩ Björn Ommer đứng đầu. Họ đã xây dựng dựa trên công việc trước đây của phòng thí nghiệm với Latent Mô hình khuếch tán và nhận được sự hỗ trợ quan trọng từ LAION và Eleuther AI.

Mở AI Stable Diffusion 2 Thuật toán cuối cùng cũng được công khai: mô hình deep2img mới, trình nâng cấp siêu phân giải, không có nội dung người lớn
Mở AI Stable Diffusion 2 Thuật toán cuối cùng cũng được công khai: mô hình deep2img mới, trình nâng cấp siêu phân giải, không có nội dung người lớn

Những gì làm cho Stable Diffusion v1 khác với Stable Diffusion v2? 

Stable Diffusion 2.0 bao gồm một số cải tiến và tính năng quan trọng so với phiên bản trước, vì vậy chúng ta hãy xem xét chúng.

Sản phẩm Stable Diffusion Bản phát hành 2.0 có các mô hình chuyển văn bản thành hình ảnh mạnh mẽ được đào tạo bằng bộ mã hóa văn bản mới (OpenCLIP) do LAION phát triển với sự hỗ trợ từ Stability AI, giúp nâng cao đáng kể chất lượng của hình ảnh được tạo so với các phiên bản V1 trước đó. Các mô hình chuyển văn bản thành hình ảnh của bản phát hành này có thể xuất hình ảnh với độ phân giải mặc định là 512×512 pixel và 768×768 pixel.

Các mô hình này được đào tạo bằng cách sử dụng tập hợp con thẩm mỹ của bộ dữ liệu LAION-5B được tạo bởi Stability AIcủa nhóm DeepFloyd, sau đó được lọc để loại trừ nội dung người lớn bằng bộ lọc NSFW của LAION.

Các đánh giá bằng cách sử dụng 50 bước mẫu DDIM, 50 thang hướng dẫn không có bộ phân loại và 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0 và 8.0 cho thấy những cải tiến tương đối của các điểm kiểm tra:

Những gì làm cho Stable Diffusion v1 khác với Stable Diffusion v2?

Stable Diffusion 2.0 hiện kết hợp mô hình Khuếch tán nâng cấp, giúp tăng độ phân giải hình ảnh lên gấp bốn. Một ví dụ về mô hình của chúng tôi nâng cấp hình ảnh được tạo ra có chất lượng thấp (128×128) thành hình ảnh có độ phân giải cao hơn được hiển thị bên dưới (512×512). Stable Diffusion 2.0, khi được kết hợp với các mô hình chuyển văn bản thành hình ảnh của chúng tôi, giờ đây có thể tạo ra hình ảnh có độ phân giải 2048×2048 trở lên.

Hướng dẫn độ sâu mới stable diffusion kiểu mẫu, deep2img, mở rộng tính năng chuyển đổi hình ảnh thành hình ảnh trước đó từ V1 với các khả năng sáng tạo hoàn toàn mới. Depth2img xác định độ sâu của hình ảnh đầu vào (sử dụng mô hình hiện có) và sau đó tạo mới hình ảnh dựa trên cả văn bản và thông tin chuyên sâu. Depth-to-Image có thể cung cấp rất nhiều ứng dụng sáng tạo mới, cung cấp các thay đổi có vẻ khác biệt đáng kể so với bản gốc trong khi vẫn giữ được độ sâu và độ sâu của hình ảnh.

Có gì mới trong Stable Diffusion 2?

  • Mới stable diffusion kiểu mẫu cung cấp độ phân giải 768 × 768.
  • U-Net có cùng số lượng tham số như phiên bản 1.5, nhưng nó được đào tạo từ đầu và sử dụng OpenCLIP-ViT/H làm bộ mã hóa văn bản. Cái gọi là mô hình dự đoán v là SD 2.0-v.
  • Mô hình nói trên đã được điều chỉnh từ cơ sở SD 2.0, mô hình này cũng được cung cấp và được đào tạo thành mô hình dự đoán nhiễu điển hình trên hình ảnh 512×512.
  • Một mô hình khuếch tán hướng dẫn bằng văn bản tiềm ẩn với tỷ lệ x4 đã được thêm vào.
  • Hướng dẫn độ sâu cơ sở SD 2.0 được tinh chỉnh stable diffusion kiểu mẫu. Mô hình này có thể được sử dụng để bảo toàn cấu trúc img2img và tổng hợp có điều kiện về hình dạng và được điều chỉnh dựa trên ước tính độ sâu một mắt do MiDaS suy ra.
  • Một mô hình vẽ tranh hướng dẫn bằng văn bản cải tiến được xây dựng trên nền tảng SD 2.0.

Các nhà phát triển đã làm việc chăm chỉ, giống như lần lặp lại đầu tiên của Stable Diffusion, để tối ưu hóa mô hình để chạy trên một GPU duy nhất—họ muốn làm cho mô hình này có thể truy cập được cho càng nhiều người càng tốt ngay từ đầu. Họ đã thấy điều gì sẽ xảy ra khi hàng triệu cá nhân chạm tay vào những mô hình này và hợp tác để xây dựng những thứ hoàn toàn phi thường. Đây là sức mạnh của nguồn mở: khai thác tiềm năng to lớn của hàng triệu người tài năng, những người có thể không có nguồn lực để đào tạo một mô hình tiên tiến nhất nhưng có khả năng làm những điều đáng kinh ngạc với một mô hình đó.

Có gì mới trong Stable Diffusion 2?

Bản cập nhật mới này, kết hợp với các tính năng mới mạnh mẽ như độ sâu 2img và khả năng nâng cấp độ phân giải tốt hơn, sẽ đóng vai trò là nền tảng cho rất nhiều ứng dụng mới và cho phép bùng nổ tiềm năng sáng tạo mới.

Đọc thêm về Stable Diffusion:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH