新聞報導 專業技術
2022 年 11 月 23 日

Sber AI 推出了 Kandinsky 2.0,這是第一個用於生成 100 多種語言的文本到圖像模型

簡單來說

Kandinsky 2.0 是第一個多語言傳播模型,由 Sber AI 研究人員在人工智能研究所的研究人員的協助下使用 Sber AI 和 SberDevices 的 1 億個文本圖像對的組合數據集創建和訓練

在許多數字圖像處理任務中,擴散越來越多地取代 GAN 和自回歸模型。 這並不奇怪,因為擴散更容易學習,不需要復雜的超參數選擇、最小-最大優化,也不會出現學習不穩定的問題。 最重要的是,擴散模型在幾乎所有生成任務上都展示了最先進的結果——通過文本生成圖像、聲音生成、視頻,甚至 3D.

Sber AI 推出了 Kandinsky 2.0,這是第一個用於生成 100 多種語言的文本到圖像模型
康定斯基 AI 創建的圖像

不幸的是,文本到事物領域的大部分工作只關注英文和中文。 為了糾正這種不公正,Sber AI 決定創造 多語言文本到圖像擴散模型 Kandinsky 2.0,它可以理解 100 多種語言的查詢。 擁抱臉 已經提供康定斯基 2.0。 來自 SberAI 和 SberDevices 的研究人員已經 合作 與AI人工智能研究所的專家就此項目進行合作。

什麼是擴散?

在2015年的文章中 使用非平衡熱力學的深度無監督學習, 擴散模型首先被描述為混合物質導致擴散的行為,從而使分佈均衡。 正如文章標題所暗示的那樣,他們通過熱力學的框架來解釋擴散模型。

在圖像的情況下,這樣的過程可能類似於,例如,逐漸從圖像中去除高斯噪聲。

論文擴散模型 擊敗 GANs on Image Synthesis,發表於 2021 年,是第一個展示擴散模型優於 GANS 的文章。 作者還設計了第一代控制方法(調節),他們將其命名為分類器指導。 此方法使用來自不同分類器(例如,狗)的梯度創建適合預期類別的對象。 通過涉及歸一化係數預測的 Adaptive Group Norm 機制,進行控製本身。

這篇文章可以看作是生成人工智能領域的一個轉折點,導致許多人轉向擴散研究。 新文章關於 文字轉視頻, 文本到 3D, 圖片 修補, 音頻生成, 擴散為 超分辨率,甚至每隔幾週就開始出現運動生成。

文本到圖像擴散

正如我們之前提到的,降噪和降噪通常是圖像模態背景下擴散過程的主要組成部分,因此 UNet 及其許多變體經常被用作基本架構。

文本到圖像擴散
文本到圖像擴散

在生成過程中必須以某種方式考慮該文本,以便基於它創建圖像。 該書的作者 OpenAI 關於 GLIDE 模型的文章建議修改文本的無分類器指導方法。

凍結預照射文本編碼器的使用和未來的級聯分辨率增強機制大大改善了文本生產(圖像). 事實證明,不需要訓練文本部分 文本到圖像模型 因為使用凍結的 T5-xxl 顯著提高了圖像質量和文本理解力,並且使用了更少的訓練資源。

一位作者 潛擴散 文章證明圖片組件實際上不需要訓練(至少不完全)。 如果我們使用強大的圖像自動編碼器(VQ-VAE 或 KL-VAE)作為視覺解碼器並嘗試通過擴散而不是圖像本身從其潛在空間生成嵌入,學習將進行得更快。 這種方法也是最近發布的基礎 Stable Diffusion 模型.

康定斯基 2.0 人工智能模型

通過一些關鍵改進,Kandinsky 2.0 基於增強的潛在擴散技術(我們不製作圖像,而是製作它們的潛在向量):

  • 使用兩個多語言文本編碼器並連接它們的嵌入。
  • 添加了 UNet(1.2 億個參數)。
  • 採樣過程動態閾值。
康定斯基 2.0 人工智能模型
康定斯基 2.0 人工智能模型

研究人員同時使用了兩個多語言編碼器——XLMR-clip 和 mT5-small——以便 模型 真的多語言。 因此,除了英語、俄語、法語和德語外,該模型還可以理解蒙古語、希伯來語和波斯語等語言。 人工智能總共知道 101 種語言。 為什麼決定同時使用兩種模型對文本進行編碼? 由於 XLMR-clip 已經看到圖片並為各種語言提供緊密嵌入,而 mT5-small 能夠理解複雜的文本,因此這些模型具有不同但至關重要的特徵。 由於這兩個模型只有少量參數(560M 和 146M),正如我們的初步測試所證明的那樣,我們決定同時使用兩個編碼器。

Kandinsky 2.0 AI 模型新生成的圖像如下:

康定斯基 2.0 模型訓練是如何完成的?

Christofari 超級計算機用於 ML Space 平台上的訓練。 它需要 196 張 NVIDIA A100 卡,每張卡具有 80 GB 的 RAM。 完成訓練需要 14 天,或 65,856 個 GPU 小時。 分析在 256×256 分辨率下用了五天,然後在 512×512 分辨率下用了六天,然後在最純淨的數據上又用了三天。

作為訓練數據,許多數據集被組合在一起,這些數據集已經針對水印、低分辨率和對文本描述的低依從性進行了預過濾,如 CLIP 分數指標所衡量的那樣。

多語言生成

Kandinsky 2.0 是第一個從文字創建圖像的多語言模型,讓我們第一次有機會評估跨語言文化的語言和視覺變化。 將同一查詢翻譯成多種語言的結果如下所示。 例如,只有白人出現在俄語查詢“受過高等教育的人”的生成結果中,而法語翻譯“Photo d'une personne diplômée de l'enseignement supérieur”的結果則更加多樣化。 我想指出的是,受過高等教育的悲傷的人只出現在俄語版中。

多語言生成
提示:強盜(1. 俄語,2. 英語,3. 印地語)
多語言生成
提示:受過高等教育的人(1.俄語,2.法語,3.中文)
多語言生成
提示:一道國菜(1.俄語,2.日語,3.印地語)

儘管還有大量的嘗試,龐大的語言模型和不同的擴散過程計劃方法,我們已經可以自信地說,康定斯基 2.0 是第一個完全多語言的傳播模型! 在 FusionBrain網站谷歌合作實驗室,您可能會看到她的繪畫示例。

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

AltLayer 進入質押計畫第二階段,推出 reALT 代幣

by 艾莉莎戴維森
2024 年 5 月 02 日
加入我們的時事通訊。
最新消息

AltLayer 進入質押計畫第二階段,推出 reALT 代幣

by 艾莉莎戴維森
2024 年 5 月 02 日

Aave Labs 公佈「Aave 2030」提案,包括啟動 Aave V4 協議

by 艾莉莎戴維森
2024 年 5 月 02 日

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多

Samourai Wallet 創辦人被指控在暗網交易中協助 2 億美元

Samourai 錢包創始人的被捕對整個行業來說是一個顯著的挫折,凸顯了持續的...

了解更多
加入我們的創新技術社區
了解更多
阅读更多
香港立法會議員吳介莊暗示對 JPEX 加密貨幣交易所提起民事訴訟
購物 新聞報導 專業技術
香港立法會議員吳介莊暗示對 JPEX 加密貨幣交易所提起民事訴訟
2024 年 5 月 2 日
AltLayer 進入質押計畫第二階段,推出 reALT 代幣
市場 新聞報導 專業技術
AltLayer 進入質押計畫第二階段,推出 reALT 代幣
2024 年 5 月 2 日
BNB Chain發布1年第一季報告,價值損失減少2024%,BSC TVL飆漲55.8%
市場 新聞報導 專業技術
BNB Chain發布1年第一季報告,價值損失減少2024%,BSC TVL飆漲55.8%
2024 年 5 月 2 日
Naver 和 Kakao 的 Kaia:新的亞洲區塊鏈巨頭準備顛覆全球加密貨幣市場
購物 軟體 故事和評論 專業技術
Naver 和 Kakao 的 Kaia:新的亞洲區塊鏈巨頭準備顛覆全球加密貨幣市場
2024 年 5 月 2 日