Báo cáo tin tức Công nghệ
24 Tháng một, 2023

GLIGEN: mô hình tạo văn bản thành hình ảnh cố định mới với hộp giới hạn

Tóm lại

GLIGEN, hay Tạo ngôn ngữ có căn cứ thành hình ảnh, là một kỹ thuật mới dựa trên và mở rộng khả năng của các mô hình khuếch tán được đào tạo trước hiện tại.

Với đầu vào điều kiện chú thích và hộp giới hạn, mô hình GLIGEN tạo ra text2img có nền tảng thế giới mở.

GLIGEN có thể tạo nhiều đối tượng ở những vị trí và kiểu cụ thể bằng cách tận dụng kiến ​​thức từ mô hình text2img được đào tạo trước.

GLIGEN cũng có thể tạo nền tảng cho các điểm chính của con người trong khi tạo văn bản thành hình ảnh.

Các mô hình khuếch tán văn bản thành hình ảnh quy mô lớn đã đi một chặng đường dài. Tuy nhiên, thông lệ hiện tại là chỉ dựa vào kiểu nhập văn bản, điều này có thể hạn chế khả năng kiểm soát. GLIGEN, hay Thế hệ ngôn ngữ thành hình ảnh có căn cứ, là một kỹ thuật mới được xây dựng dựa trên và mở rộng khả năng của các mô hình khuếch tán văn bản thành hình ảnh được đào tạo trước hiện tại bằng cách cho phép chúng được điều chỉnh dựa trên các đầu vào nối đất.

GLIGEN: mô hình tạo văn bản thành hình ảnh cố định mới với hộp giới hạn

Để duy trì kiến ​​thức khái niệm sâu rộng của mô hình được đào tạo trước, các nhà phát triển đóng băng tất cả các trọng số của nó và bơm thông tin nền tảng vào các lớp có thể đào tạo mới thông qua một quy trình được kiểm soát. Với đầu vào điều kiện chú thích và hộp giới hạn, mô hình GLIGEN tạo văn bản thành hình ảnh có nền tảng trong thế giới mở và khả năng nền tảng khái quát hóa hiệu quả cho các khái niệm và cấu hình không gian mới.

Kiểm tra các bản demo tại đây.

GLIGEN dựa trên các mô hình khuếch tán được đào tạo trước hiện có, các trọng số ban đầu đã được đóng băng để giữ lại một lượng lớn kiến ​​thức được đào tạo trước.
  • GLIGEN dựa trên nền tảng được đào tạo trước hiện có mô hình khuếch tán, các trọng số ban đầu đã được đóng băng để giữ lại một lượng lớn kiến ​​thức được đào tạo trước.
  • Tại mỗi khối máy biến áp, một lớp Tự chú ý có cổng có thể đào tạo mới được tạo ra để hấp thụ đầu vào nối đất bổ sung.
  • Mỗi mã thông báo nối đất có hai loại thông tin: thông tin ngữ nghĩa về thứ được nối đất (văn bản hoặc hình ảnh được mã hóa) và thông tin vị trí không gian (hộp giới hạn được mã hóa hoặc các điểm chính).
Bài viết liên quan: VToonify: Mô hình AI thời gian thực để tạo video chân dung nghệ thuật
Các lớp được điều chế mới được thêm vào liên tục được đào tạo trước trên dữ liệu nối đất lớn (hộp văn bản hình ảnh), tiết kiệm chi phí hơn so với các phương pháp thay thế sử dụng mô hình khuếch tán được đào tạo trước, chẳng hạn như tinh chỉnh toàn bộ mô hình. Tương tự như Lego, các lớp được đào tạo khác nhau có thể được cắm vào và rút ra để cho phép nhiều khả năng mới khác nhau.
Các lớp điều chế mới được thêm vào liên tục được đào tạo trước trên dữ liệu nối đất khổng lồ (hộp văn bản hình ảnh). Điều này tiết kiệm chi phí hơn so với các phương pháp thay thế bằng cách sử dụng một chuyên gia được đào tạo trước. mô hình khuếch tán, chẳng hạn như tinh chỉnh mô hình đầy đủ. Tương tự như Lego, các lớp được đào tạo khác nhau có thể được cắm vào và tháo ra để kích hoạt nhiều khả năng mới.
GLIGEN hỗ trợ lấy mẫu theo lịch trình trong quy trình khuếch tán để suy luận, trong đó mô hình có thể tự động chọn sử dụng mã thông báo nối đất (bằng cách thêm lớp mới) hoặc mô hình khuếch tán ban đầu với ưu tiên tốt (bằng cách loại bỏ lớp mới) và do đó cân bằng chất lượng tạo và khả năng nối đất.
GLIGEN hỗ trợ lấy mẫu theo lịch trình trong quy trình khuếch tán để suy luận, trong đó mô hình có thể tự động chọn sử dụng mã thông báo nối đất (bằng cách thêm lớp mới) hoặc mô hình khuếch tán ban đầu với ưu tiên tốt (bằng cách loại bỏ lớp mới) và do đó cân bằng chất lượng tạo và khả năng nối đất.
GLIGEN có thể tạo nhiều đối tượng ở những vị trí và kiểu cụ thể bằng cách tận dụng kiến ​​thức từ mô hình text2img được đào tạo trước.
GLIGEN có thể tạo nhiều đối tượng ở những vị trí và kiểu cụ thể bằng cách tận dụng kiến ​​thức từ mô hình text2img được đào tạo trước.
Bài viết liên quan: Microsoft đã phát hành một mô hình khuếch tán có thể tạo hình đại diện 3D từ một bức ảnh duy nhất của một người
GLIGEN cũng có thể được đào tạo bằng cách sử dụng các bức ảnh tham khảo.
GLIGEN cũng có thể được đào tạo bằng cách sử dụng các bức ảnh tham khảo. Hàng trên cùng gợi ý rằng các bức ảnh tham khảo, ngoài các mô tả bằng văn bản, có thể cung cấp các đặc điểm chi tiết hơn như kiểu dáng và hình dáng của chiếc xe. Hàng thứ hai chứng minh rằng hình ảnh tham chiếu cũng có thể được sử dụng làm hình ảnh phong cách, trong trường hợp đó, chúng tôi thấy rằng việc đặt nó vào một góc hoặc cạnh của hình ảnh là đủ.
GLIGEN, giống như các mô hình khuếch tán khác, có thể thực hiện inpaint hình ảnh nối đất, có thể tạo ra các đối tượng khớp chặt chẽ với các hộp giới hạn được cung cấp.
GLIGEN, giống như các mô hình khuếch tán khác, có thể thực hiện inpaint hình ảnh nối đất, có thể tạo ra các đối tượng khớp chặt chẽ với các hộp giới hạn được cung cấp.
GLIGEN cũng có thể tạo nền tảng cho các điểm chính của con người trong khi tạo văn bản thành hình ảnh.
GLIGEN cũng có thể tiếp đất các điểm chính của con người trong khi tạo văn bản thành hình ảnh.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH