AI Wiki 專業技術
2023 年 6 月 12 日

AI 中的 30 多個 Transformer 模型:它們是什麼以及它們是如何工作的

近幾個月來,AI 中出現了許多 Transformer 模型,每個模型都有獨特且有時有趣的名稱。 但是,這些名稱可能無法深入了解這些模型的實際作用。 本文旨在提供最流行的 Transformer 模型的全面而直接的列表。 它將對這些模型進行分類,並介紹 Transformer 家族中的重要方面和創新。 頂部列表將涵蓋 模型訓練 透過自我監督學習,例如 BERT 或 GPT-3,以及在人類參與下接受額外訓練的模型,例如 InstructGPT 使用的模型 ChatGPT.

信用: Metaverse Post (mpost.io)
專業提示
本指南 旨在為初學者和高級學習者提供快速工程方面的全面知識和實踐技能。
有很多課程 適用於想要了解更多有關 AI 及其相關技術的個人。
看看吧 排名前 10 的 AI 加速器 預計將在性能方面引領市場。

什麼是 AI 中的變形金剛?

Transformers 是一種深度學習模型,在一篇名為“注意力就是你所需要的” 由谷歌研究人員於 2017 年發表。這篇論文獲得了巨大的認可,在短短五年內被引用了超過 38,000 次。

最初的 Transformer 架構是一種特定形式的編碼器-解碼器模型,在它被引入之前就已經流行起來。 這些模型主要依賴於 長短期記憶體 和循環神經網絡的其他變體(RNN),注意只是所使用的機制之一。 然而,Transformer 論文提出了一個革命性的想法,即註意力可以作為建立輸入和輸出之間依賴關係的唯一機制。

什麼是 AI 中的變形金剛?
信用:dominodatalab.com

在 Transformers 的上下文中,輸入由一系列標記組成,這些標記可以是自然語言處理中的詞或子詞(NLP). NLP 模型中通常使用子詞來解決詞彙外詞的問題。 編碼器的輸出為每個標記生成一個固定維度的表示,並為整個序列生成一個單獨的嵌入。 解碼器獲取編碼器的輸出並生成一系列標記作為其輸出。

自 Transformer 論文發表以來,流行的模型如 BERT 和 GPT 採用了原始架構的各個方面,使用編碼器或解碼器元件。 這些模型之間的關鍵相似之處在於層架構,其中包含自註意力機制和前饋層。 在 Transformer 中,每個輸入令牌在各層中遍歷自己的路徑,同時保持與輸入序列中每個其他令牌的直接依賴關係。 這項獨特的功能允許並行且有效率地計算上下文標記表示,而這種功能對於 RNN 等順序模型來說是不可行的。

雖然本文只觸及了 Transformer 架構的表面,但它提供了對其基本方面的一瞥。 為了更全面地了解,我們建議參考原始研究論文或 The Illustrated Transformer 帖子。

AI中的編碼器和解碼器是什麼?

假設你有兩個模型,一個編碼器和一個解碼器, 一起工作 像一個團隊。 編碼器接受輸入並將其轉換為固定長度的向量。 然後,解碼器獲取該向量並將其轉換為輸出序列。 這些模型一起訓練,以確保輸出與輸入盡可能匹配。

編碼器和解碼器都有好幾層。 編碼器中的每一層都有兩個子層:一個多頭自註意力層和一個簡單的前饋網絡。 自註意力層幫助輸入中的每個標記理解與所有其他標記的關係。 這些子層也有殘差連接和層歸一化,使學習過程更順暢。

解碼器的多頭 自註意層 與編碼器中的工作方式略有不同。 它將標記隱藏到它所關注的標記的右側。 這確保解碼器只查看它試圖預測的標記之前的標記。 這種屏蔽的多頭注意力有助於解碼器生成準確的預測。 此外,解碼器包括另一個子層,它是編碼器所有輸出的多頭注意層。

請務必注意,這些特定細節已在 Transformer 模型的不同變體中進行了修改。 像 BERT 和 GPT,例如,基於原始架構的編碼器或解碼器方面。

人工智能中的注意力層是什麼?

在我們之前討論的模型架構中,多頭注意力層是使其變得強大的特殊元素。 但注意力到底是什麼? 將其視為將問題映射到一組信息並給出輸出的函數。 輸入中的每個標記都有一個與之關聯的查詢、鍵和值。 每個標記的輸出表示是通過對值進行加權求和來計算的,其中每個值的權重取決於它與查詢的匹配程度。

Transformers 使用稱為縮放點積的兼容性函數來計算這些權重。 Transformers 中關於注意力的有趣之處在於每個標記都經過自己的計算路徑,允許對輸入序列中的所有標記進行並行計算。 它只是多個注意力塊,可以獨立計算每個標記的表示。 然後組合這些表示以創建令牌的最終表示。

與其他類型的網絡相比,如循環和 卷積網絡,注意層有一些優點。 它們的計算效率很高,這意味著它們可以快速處理信息。 它們還具有更高的連通性,這有助於捕獲序列中的長期關係。

人工智能中的微調模型是什麼?

基礎模型 是基於大量通用數據訓練的強大模型。 然後可以通過在較小的集合上訓練它們來適應或微調特定任務 目標特定數據. 這種方法,由 BERT紙,導致基於 Transformer 的模型在與語言相關的機器學習任務中佔據主導地位。

對於像 BERT 這樣的模型,它們會生成輸入標記的表示,但不會自行完成特定任務。 為了使它們有用,額外的 神經層 被添加到頂部並且模型被端到端地訓練,這個過程被稱為微調。 然而,隨著 生成模型 点讚 GPT,方法略有不同。 GPT 是一個經過訓練可以預測句子中下一個單字的解碼器語言模型。 透過大量網路資料進行訓練, GPT 可以根據輸入查詢或提示產生合理的輸出。

為了使 GPT 更有幫助, OpenAI 研究人員開發了 指導GPT,經過訓練可以遵循人類指令。 這是透過微調來實現的 GPT 使用來自各種任務的人工標記資料。 指導GPT 能夠執行廣泛的任務,並被流行的引擎使用,例如 ChatGPT.

微調也可用於創建優化的基礎模型的變體 具體目的 超越語言建模。 例如,有針對語義相關任務(如文本分類和搜索檢索)進行微調的模型。 此外,變壓器編碼器已在多任務中成功微調 學習框架 使用單個共享模型執行多個語義任務。

如今,微調用於創建可供大量用戶使用的基礎模型版本。 該過程涉及生成對輸入的響應 提示並讓人對結果進行排名。 該排名用於訓練 獎勵模式,它為每個輸出分配分數。 強化學習與人類反饋 然後使用進一步訓練模型。

為什麼變形金剛是人工智能的未來?

Transformers 作為一種強大的模型,首先在語言翻譯領域得到了展示。 然而,研究人員很快意識到,Transformer 可以用於各種與語言相關的任務,方法是在大量未標記文本上訓練它們,然後在較小的標記數據集上對其進行微調。 這種方法使變形金剛能夠獲取有關語言的重要知識。

最初為語言任務設計的 Transformer 架構也被應用到其他應用程序中,例如 生成圖像、音頻、音樂,甚至動作。 這使得變形金剛成為生成人工智能領域的關鍵組成部分,它正在改變社會的各個方面。

工具和框架的可用性,例如 火炬TensorFlow 在 Transformer 模型的廣泛採用中發揮了至關重要的作用。 像 Huggingface 這樣的公司已經建立了自己的 圍繞這個想法開展業務 開源 Transformer 庫的商業化以及 NVIDIA Hopper Tensor Cores 等專用硬件進一步加快了這些模型的訓練和推理速度。

Transformer 的一個值得注意的應用是 ChatGPT, 發布的聊天機器人 OpenAI。 它變得非常受歡迎,在短時間內就達到了數百萬用戶。 OpenAI 也宣布推出 GPT-4,一個更強大的版本,能夠在以下任務中實現類似人類的表現 醫學和法律考試.

變形金剛在人工智能領域的影響及其廣泛的應用範圍是不可否認的。 他們有 改變了方式 我們處理與語言相關的任務,並為生成人工智能的新進展鋪平道路。

3 種預訓練架構

最初由編碼器和解碼器組成的 Transformer 架構已經發展到包括基於特定需求的不同變體。 讓我們用簡單的術語分解這些變化。

  1. 編碼器預訓練:這些模型側重於理解完整的句子或段落。 在預訓練期間,編碼器用於重建輸入句子中的掩碼標記。 這有助於模型學習理解整體上下文。 此類模型對於文本分類、蘊含和抽取式問答等任務很有用。
  2. 解碼器預訓練:解碼器模型被訓練為根據先前的標記序列生成下一個標記。 它們被稱為自回歸語言模型。 解碼器中的自註意力層只能訪問句子中給定標記之前的標記。 這些模型非常適合涉及文本生成的任務。
  3. Transformer(編碼器-解碼器)預訓練:此變體結合了編碼器和解碼器組件。 編碼器的自註意力層可以訪問所有輸入令牌,而解碼器的自註意力層只能訪問給定令牌之前的令牌。 該架構使解碼器能夠使用編碼器學習的表示。 編碼器-解碼器模型非常適合摘要、翻譯或生成式問答等任務。

預訓練目標可能涉及去噪或因果語言建模。 與僅編碼器或僅解碼器模型相比,編碼器-解碼器模型的這些目標更為複雜。 根據模型的重點,Transformer 架構有不同的變體。 無論是理解完整的句子、生成文本,還是將兩者結合起來以完成各種任務,Transformers 都可以靈活應對與語言相關的不同挑戰。

預訓練模型的 8 種任務類型

在訓練模型時,我們需要給它一個任務或目標來學習。 自然語言處理 (NLP) 中有多種任務可用於預訓練模型。 讓我們用簡單的術語分解其中的一些任務:

  1. 語言建模 (LM):該模型預測句子中的下一個標記。 它學習理解上下文並生成連貫的句子。
  2. 因果語言建模:該模型按照從左到右的順序預測文本序列中的下一個標記。 這就像一個講故事的模型,一次一個單詞地生成句子。
  3. 前綴語言建模:該模型將“前綴”部分與主序列分開。 它可以處理前綴中的任何標記,然後自回歸地生成序列的其餘部分。
  4. Masked Language Modeling (MLM):輸入句子中的一些標記被屏蔽,模型根據周圍的上下文預測丟失的標記。 它學會填空。
  5. 排列語言建模 (PLM):該模型根據輸入序列的隨機排列預測下一個標記。 它學習處理不同順序的令牌。
  6. 去噪自動編碼器 (DAE):該模型採用部分損壞的輸入,旨在恢復原始的、未失真的輸入。 它學會處理文本的噪音或缺失部分。
  7. 替換標記檢測 (RTD):該模型檢測標記是來自原始文本還是生成的版本。 它學習識別替換或操縱的令牌。
  8. 下一句預測(NSP):模型從訓練數據中學習區分兩個輸入句子是否是連續的片段。 它理解句子之間的關係。

這些任務幫助模型學習語言的結構和意義。 通過對這些任務進行預訓練,模型在針對特定應用程序進行微調之前對語言有了很好的理解。

人工智能領域的前 30 多位變形金剛

姓名預訓練架構任務應用由開發
ALBERT編碼器傳銷/NSP和BERT一樣谷歌
羊駝解碼器LM文本生成和分類任務斯坦福大學
折疊編碼器蛋白質折疊預測蛋白質折疊內心深處
人擇助理(另見)解碼器LM從通用對話框到代碼助手。人類的
BART地鐵編碼器/解碼器DAE文本生成和文本理解任務Facebook
BERT編碼器傳銷/NSP語言理解與問答谷歌
攪拌機 3解碼器LM文本生成和文本理解任務Facebook
盛開解碼器LM文本生成和文本理解任務大科學/抱臉
ChatGPT解碼器LM對話代理OpenAI
龍貓解碼器LM文本生成和文本理解任務內心深處
CLIP編碼器圖像/對象分類OpenAI
CTRL解碼器可控文本生成Salesforce的
DALL-E解碼器字幕預測文字轉圖片OpenAI
達爾-E-2編碼器/解碼器字幕預測文字轉圖片OpenAI
德貝塔解碼器傳銷和BERT一樣Microsoft微軟
決策轉換器解碼器下一步行動預測通用 RL(強化學習任務)谷歌/加州大學伯克利分校/FAIR
迪亞洛GPT解碼器LM對話框設置中的文本生成Microsoft微軟
蒸餾器編碼器傳銷/NSP語言理解與問答抱臉
DQ捷運編碼器/解碼器DAE文本生成和理解Amazon
多莉解碼器LM文本生成和分類任務數據塊公司
厄尼編碼器傳銷知識密集型相關任務各種中國機構
火烈鳥解碼器字幕預測文字轉圖片內心深處
卡拉狄加解碼器LM科學 QA、數學推理、摘要、文檔生成、分子特性預測和實體提取。Meta
滑行編碼器字幕預測文字轉圖片OpenAI
GPT-3.5解碼器LM對話和通用語言OpenAI
GPT指導解碼器LM知識密集型對話或語言任務OpenAI
HTML編碼器/解碼器DAE允許結構化 HTML 提示的語言模型Facebook
圖像T5字幕預測文字轉圖片谷歌
蘭達解碼器LM通用語言建模谷歌
LLaMA解碼器LM常識推理、問答、代碼生成和閱讀理解。Meta
密涅瓦解碼器LM數學推理谷歌
棕櫚解碼器LM語言理解與生成谷歌
羅伯塔編碼器傳銷語言理解與問答威斯康星大學/谷歌
麻雀解碼器LM對話代理和通用語言生成應用程序,如問答內心深處
穩定擴散編碼器/解碼器字幕預測文字轉圖片LMU 慕尼黑 + Stability.ai + Eleuther.ai
駱馬解碼器LM對話代理加州大學伯克利分校、CMU、斯坦福大學、加州大學聖地亞哥分校和 MBZUAI

常見問題

人工智能中的變形金剛是一種 深度學習架構 這改變了自然語言處理和其他任務。 他們使用自我注意機制來捕獲句子中單詞之間的關係,使他們能夠理解和生成類似人類的文本。

編碼器和解碼器是序列到序列模型中常用的組件。 編碼器處理文本或圖像等輸入數據,並將其轉換為壓縮表示,而解碼器則根據編碼表示生成輸出數據,從而實現語言翻譯或圖像字幕等任務。

注意力層是用於 神經網絡,特別是在 Transformer 模型中。 它們使模型能夠有選擇地關注輸入序列的不同部分,根據每個元素的相關性為每個元素分配權重,從而有效地捕獲元素之間的依賴關係和關係。

Fine-tuned models 是指預訓練模型,在特定任務或數據集上進一步訓練,以提高其性能並使其適應該任務的特定要求。 這個微調過程涉及調整模型的參數以優化其預測並使其更適合目標任務。

Transformers 被認為是 AI 的未來,因為它們在包括自然語言處理、圖像生成等在內的廣泛任務中展示了卓越的性能。 它們捕獲遠程依賴關係和高效處理順序數據的能力使它們對各種應用程序具有高度的適應性和有效性,為生成人工智能的進步和社會的許多方面的革命鋪平了道路。

AI 中最著名的 Transformer 模型包括 BERT(來自 Transformers 的雙向編碼器表示)、 GPT (生成式預訓練變壓器)和 T5(文字到文字傳輸變壓器)。 這些模型在各種自然語言處理任務中取得了顯著的成果,並在人工智慧研究界獲得了廣泛的歡迎。

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6

by 艾莉莎戴維森
2024 年 5 月 08 日
加入我們的時事通訊。
最新消息

Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6

by 艾莉莎戴維森
2024 年 5 月 08 日

2024 年 7 月新 Meme 幣:加密貨幣愛好者的 XNUMX 個精選

by 維多利亞·帕爾奇克
2024 年 5 月 08 日

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
Nexo 發起「狩獵」活動,獎勵參與其生態系統的用戶 12 萬美元的 NEXO 代幣
市場 新聞報導 專業技術
Nexo 發起「狩獵」活動,獎勵參與其生態系統的用戶 12 萬美元的 NEXO 代幣
2024 年 5 月 8 日
Revolut 的 Revolut X 交易所以零製造商費用和進階分析吸引加密貨幣交易者
市場 軟體 故事和評論 專業技術
Revolut 的 Revolut X 交易所以零製造商費用和進階分析吸引加密貨幣交易者
2024 年 5 月 8 日
Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6
新聞報導 專業技術
Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6
2024 年 5 月 8 日
2024 年 7 月新 Meme 幣:加密貨幣愛好者的 XNUMX 個精選
消化 市場 專業技術
2024 年 7 月新 Meme 幣:加密貨幣愛好者的 XNUMX 個精選
2024 年 5 月 8 日