Facebook 開發了一種將 AI Transformer 性能翻倍的新方法
簡單來說
Facebook 基於 Transformer 架構開發了一種新方法,可以將 AI Transformer 的性能提高一倍。
新方法在處理不同塊之間的間隙中找到最相似的補丁,並將它們組合起來以降低計算複雜度。
臉書開發了一個 新方法 將 AI 變壓器的性能提高一倍。 方法是 基於變壓器架構 專為書籍、文章和博客等長篇文本而設計。 新的 AI Transformer 的目標是提高 基於變壓器的模型 通過使它們在處理長序列時更加高效和有效來處理長格式文本。 AI Transformer 的結果非常有希望,這種新方法有機會幫助提高基於 Transformer 的模型在各種任務上的性能。
這種新方法有望對自然語言處理任務產生重大影響,例如語言翻譯、摘要和問答系統。 它還有望導致開發更複雜的 AI 模型,這些模型可以處理更長、更複雜的文本。
為了處理圖像,現代變壓器將其切成小塊(通常是正方形:見下面的 gif),然後對這些粒子的表示進行操作,每個粒子都由一個“令牌”表示。 正如我們所知,Transformers 的工作速度越慢,這些 token 片段越多(這適用於文本和圖像),並且最常見的 transformer 具有二次關係。 也就是說,添加的令牌越多,處理速度就越慢。 為了解決這個問題,研究人員提出了各種技術來減少圖像處理所需的令牌數量,例如分層和自適應池化。 這些方法旨在保持輸出質量,同時最小化計算成本。
新方法在處理不同塊之間的間隙中找到最相似的補丁並將它們組合起來以降低計算複雜度。 合併令牌的份額是一個超參數; 它越高,質量越低,但加速度也越高。 實驗表明,可以合併大約 40% 的令牌,質量損失為 0.1-0.4%,並獲得雙倍加速(因此消耗更少的內存)。 這種新方法是一種很有前途的解決方案,可以降低圖像處理的計算複雜性,並且可以在不影響最終輸出質量的情況下實現更快、更高效的處理。
這種基於獨創性和理解事物工作原理的工程方法看起來非常有吸引力。 此外,Meta 的開發人員承諾為 StableDiffusion 帶來更多,以加快速度。 很棒的是,因為變壓器無處不在,所以可以在各種模型中快速實施這些技巧。 這顯示了工程解決方案對各行各業產生廣泛影響的潛力。 看看這些進步如何在 變壓器型號 將隨著時間的推移繼續發展和改進。
- 元 AI 和 Paperswithcode 已經發布了第一個 120B 模型卡拉狄加訓練科學文本,允許更準確和更快的預測。 Galactica 的目標是幫助研究人員區分重要的和不相關的。
閱讀更多相關新聞:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。