Báo cáo tin tức Công nghệ
Tháng Mười Một 23, 2022

Sber AI đã giới thiệu Kandinsky 2.0, mô hình chuyển văn bản thành hình ảnh đầu tiên để tạo bằng hơn 100 ngôn ngữ

Tóm lại

Kandinsky 2.0, mô hình phổ biến đa ngôn ngữ đầu tiên, được tạo ra và đào tạo bởi các nhà nghiên cứu AI của Sber với sự hỗ trợ của các nhà nghiên cứu từ Viện Trí tuệ nhân tạo AI bằng cách sử dụng bộ dữ liệu kết hợp gồm 1 tỷ cặp hình ảnh văn bản từ Sber AI và SberDevices

Sự khuếch tán đang ngày càng thay thế GAN và các mô hình tự hồi quy trong một số tác vụ xử lý ảnh kỹ thuật số. Điều này không có gì đáng ngạc nhiên vì khuếch tán dễ học hơn, không yêu cầu lựa chọn siêu tham số phức tạp, tối ưu hóa tối thiểu tối đa và không bị mất ổn định khi học. Và quan trọng nhất, các mô hình khuếch tán thể hiện kết quả tiên tiến trên hầu hết các tác vụ tổng quát — tạo hình ảnh bằng văn bản, tạo âm thanh, video và thậm chí 3D.

Sber AI đã giới thiệu Kandinsky 2.0, mô hình chuyển văn bản thành hình ảnh đầu tiên để tạo bằng hơn 100 ngôn ngữ
Hình ảnh được tạo bởi Kandinsky AI

Thật không may, hầu hết các công việc trong lĩnh vực chuyển văn bản thành một cái gì đó chỉ tập trung vào tiếng Anh và tiếng Trung. Để sửa chữa sự bất công này, Sber AI quyết định tạo ra một mô hình khuếch tán văn bản thành hình ảnh đa ngôn ngữ Kandinsky 2.0, hiểu các truy vấn bằng hơn 100 ngôn ngữ. ÔmKhuôn Mặt đã cung cấp Kandinsky 2.0. Các nhà nghiên cứu từ SberAI và SberDevices đã hợp tác cùng các chuyên gia của Viện nghiên cứu trí tuệ nhân tạo AI về dự án này.

Sự khuếch tán là gì?

Trong bài viết năm 2015 Học không giám sát sâu sử dụng Nhiệt động lực học Không cân bằng, các mô hình khuếch tán lần đầu tiên được mô tả là hành động trộn một chất dẫn đến sự khuếch tán, làm cân bằng sự phân bố. Như tiêu đề của bài báo ngụ ý, họ đã tiếp cận việc giải thích các mô hình khuếch tán thông qua khuôn khổ của nhiệt động lực học.

Trong trường hợp ảnh, một quá trình như vậy có thể giống như loại bỏ dần nhiễu Gauss khỏi ảnh.

Các mô hình khuếch tán giấy Đánh bại GAN trên Tổng hợp hình ảnh, được xuất bản vào năm 2021, là lần đầu tiên cho thấy tính ưu việt của các mô hình khuếch tán so với GANS. Các tác giả cũng nghĩ ra phương pháp kiểm soát thế hệ đầu tiên (điều hòa), mà họ đặt tên là hướng dẫn phân loại. Phương pháp này tạo các đối tượng phù hợp với lớp dự định bằng cách sử dụng các gradient từ một bộ phân loại khác (ví dụ: chó). Thông qua cơ chế Adaptive Group Norm, bao gồm dự báo các hệ số chuẩn hóa, việc kiểm soát được thực hiện.

Bài báo này có thể được coi là một bước ngoặt trong lĩnh vực AI tổng quát, khiến nhiều người chuyển sang nghiên cứu về sự khuếch tán. Bài viết mới về chuyển văn bản thành video, chuyển văn bản thành 3D, Hình ảnh, tưởng tượng sơn màu, thế hệ âm thanh, khuếch tán cho giải pháp tối ưuvà thậm chí việc tạo chuyển động bắt đầu xuất hiện vài tuần một lần.

Truyền văn bản thành hình ảnh

Như chúng tôi đã đề cập trước đó, giảm nhiễu và loại bỏ nhiễu thường là các thành phần chính của quy trình khuếch tán trong ngữ cảnh của phương thức hình ảnh, vì vậy UNet và nhiều biến thể của nó thường được sử dụng làm kiến ​​trúc cơ bản.

Truyền văn bản thành hình ảnh
Truyền văn bản thành hình ảnh

Điều cần thiết là văn bản này phải được xem xét theo cách nào đó trong quá trình tạo ra để tạo ra hình ảnh dựa trên nó. Các tác giả của OpenAI bài viết về mô hình GLIDE đề xuất sửa đổi cách tiếp cận hướng dẫn không cần phân loại cho văn bản.

Việc sử dụng bộ mã hóa văn bản đã được chiếu xạ trước và cơ chế nâng cao độ phân giải theo tầng trong tương lai đã cải thiện đáng kể khả năng tạo văn bản (Ảnh). Hóa ra là không cần đào tạo phần văn bản của mô hình văn bản thành hình ảnh vì sử dụng T5-xxl bị đóng băng dẫn đến chất lượng hình ảnh và khả năng hiểu văn bản được cải thiện đáng kể và sử dụng ít tài nguyên đào tạo hơn nhiều.

Các tác giả của một Khuếch tán tiềm ẩn bài báo đã chứng minh rằng thành phần hình ảnh thực sự không yêu cầu đào tạo (ít nhất là không hoàn toàn). Quá trình học sẽ diễn ra nhanh hơn nữa nếu chúng ta sử dụng bộ mã hóa tự động hình ảnh mạnh mẽ (VQ-VAE hoặc KL-VAE) làm bộ giải mã hình ảnh và cố gắng tạo các phần nhúng từ không gian tiềm ẩn của nó bằng cách khuếch tán thay vì chính hình ảnh. Phương pháp này cũng là nền tảng của cuốn sách được phát hành gần đây. Stable Diffusion kiểu mẫu.

Mô hình trí tuệ nhân tạo Kandinsky 2.0

Với một vài cải tiến quan trọng, Kandinsky 2.0 dựa trên kỹ thuật Khuếch tán Tiềm ẩn nâng cao (chúng tôi không tạo ra hình ảnh mà thay vào đó là các vectơ tiềm ẩn của chúng):

  • Đã sử dụng hai bộ mã hóa văn bản đa ngôn ngữ và nối các phần nhúng của chúng.
  • Đã thêm UNet (1.2 tỷ tham số).
  • Quy trình lấy mẫu ngưỡng động.
Mô hình trí tuệ nhân tạo Kandinsky 2.0
Mô hình trí tuệ nhân tạo Kandinsky 2.0

Các nhà nghiên cứu đã sử dụng đồng thời hai bộ mã hóa đa ngôn ngữ—XLMR-clip và mT5-small—để tạo ra kiểu mẫu thực sự đa ngôn ngữ. Do đó, ngoài tiếng Anh, tiếng Nga, tiếng Pháp và tiếng Đức, mô hình này còn có thể hiểu các ngôn ngữ như tiếng Mông Cổ, tiếng Do Thái và tiếng Ba Tư. AI biết tổng cộng 101 ngôn ngữ. Tại sao quyết định mã hóa văn bản bằng hai mô hình cùng một lúc? Vì XLMR-clip đã nhìn thấy hình ảnh và cung cấp khả năng nhúng gần gũi cho nhiều ngôn ngữ khác nhau và mT5-small có khả năng hiểu các văn bản phức tạp nên các mô hình này có các tính năng khác nhau nhưng rất quan trọng. Vì cả hai kiểu máy chỉ có một số ít tham số (560M và 146M), như đã được chứng minh bằng các thử nghiệm sơ bộ của chúng tôi, nên chúng tôi đã quyết định sử dụng đồng thời hai bộ mã hóa.

Hình ảnh mới được tạo bằng mô hình Kandinsky 2.0 AI bên dưới:

Quá trình đào tạo mô hình Kandinsky 2.0 được thực hiện như thế nào?

Siêu máy tính Christofari đã được sử dụng để đào tạo trên nền tảng ML Space. Nó yêu cầu 196 card NVIDIA A100, mỗi card có 80 GB RAM. Mất 14 ngày, tương đương 65,856 GPU-giờ, để hoàn thành khóa đào tạo. Quá trình phân tích mất năm ngày ở độ phân giải 256×256, tiếp theo là sáu ngày ở độ phân giải 512×512, sau đó thêm ba ngày đối với dữ liệu tinh khiết nhất.

Là dữ liệu đào tạo, nhiều bộ dữ liệu được kết hợp đã được lọc trước cho hình mờ, độ phân giải thấp và mức độ tuân thủ thấp đối với mô tả văn bản được đo bằng chỉ số điểm CLIP.

thế hệ đa ngôn ngữ

Kandinsky 2.0 là mô hình đa ngôn ngữ đầu tiên để tạo hình ảnh từ các từ, cho chúng tôi cơ hội đầu tiên để đánh giá những thay đổi về ngôn ngữ và hình ảnh giữa các nền văn hóa ngôn ngữ. Kết quả của việc dịch cùng một truy vấn sang nhiều ngôn ngữ được hiển thị bên dưới. Chẳng hạn, chỉ đàn ông da trắng xuất hiện trong kết quả tạo cho truy vấn tiếng Nga “một người có trình độ học vấn cao hơn”, trong khi kết quả cho bản dịch tiếng Pháp, “Photo d'une personne diplômée de l'enseignement supérieur,” đa dạng hơn. Tôi muốn chỉ ra rằng những người đau khổ với trình độ học vấn cao hơn chỉ có trong ấn bản tiếng Nga.

thế hệ đa ngôn ngữ
Lời nhắc: tên cướp (1. Tiếng Nga, 2. Tiếng Anh, 3. Tiếng Hindi)
thế hệ đa ngôn ngữ
Lời nhắc: một người có trình độ học vấn cao hơn (1. Tiếng Nga, 2. Tiếng Pháp, 3. Tiếng Trung)
thế hệ đa ngôn ngữ
Gợi ý: một món ăn dân tộc (1. Tiếng Nga, 2. Tiếng Nhật, 3. Tiếng Hindi)

Mặc dù vẫn còn rất nhiều thử nghiệm với các mô hình ngôn ngữ khổng lồ và các phương pháp khác nhau của quá trình phổ biến đã được lên kế hoạch, nhưng chúng tôi có thể tự tin khẳng định rằng Kandinsky 2.0 là mô hình phổ biến đa ngôn ngữ hoàn toàn đầu tiên! trên Trang web FusionBraingoogle colab, bạn có thể xem các ví dụ về bản vẽ của cô ấy.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Quỹ Eigen có kế hoạch phân phối thêm 100 mã thông báo EIGEN cho người dùng sau khi bị cộng đồng chỉ trích
thị trường Báo cáo tin tức Công nghệ
Quỹ Eigen có kế hoạch phân phối thêm 100 mã thông báo EIGEN cho người dùng sau khi bị cộng đồng chỉ trích
3 Tháng Năm, 2024
Pantera Capital đầu tư vào TON Blockchain, bày tỏ sự tin tưởng vào tiềm năng mở rộng khả năng tiếp cận tiền điện tử của Telegram
Kinh doanh Báo cáo tin tức Công nghệ
Pantera Capital đầu tư vào TON Blockchain, bày tỏ sự tin tưởng vào tiềm năng mở rộng khả năng tiếp cận tiền điện tử của Telegram
2 Tháng Năm, 2024
Mitosis huy động được 7 triệu đô la tài trợ từ Amber Group và các dự án có tầm nhìn xa để nâng cao giao thức thanh khoản mô-đun của nó
Kinh doanh Báo cáo tin tức Công nghệ
Mitosis huy động được 7 triệu đô la tài trợ từ Amber Group và các dự án có tầm nhìn xa để nâng cao giao thức thanh khoản mô-đun của nó
2 Tháng Năm, 2024
Galxe hợp tác với Jambo để mở rộng khả năng tiếp cận toàn cầu tới Web3
Kinh doanh Báo cáo tin tức Công nghệ
Galxe hợp tác với Jambo để mở rộng khả năng tiếp cận toàn cầu tới Web3
2 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH