AI Wiki テクノロジー
2023 年 6 月 12 日

AI のトップ 30 以上のトランス モデル: その概要と仕組み

ここ数カ月間、AI では多数の Transformer モデルが登場しており、それぞれにユニークで、時には面白い名前が付けられています。 ただし、これらの名前からは、これらのモデルが実際に何を行うかについてはあまり洞察が得られない可能性があります。 この記事は、最も人気のある Transformer モデルの包括的かつわかりやすいリストを提供することを目的としています。 これらのモデルを分類し、Transformer ファミリ内の重要な側面と革新性も紹介します。 上位リストには次の内容が含まれます 訓練されたモデル BERT や GPT-3、また、Instruct など、人間の関与による追加トレーニングを受けるモデルも含まれます。GPT が利用するモデル ChatGPT.

クレジット: Metaverse Post (mpost.io)
プロのヒント
このガイド 初心者から上級者までを対象に、プロンプトエンジニアリングにおける包括的な知識と実践的なスキルを提供するように設計されています。
たくさんのコースがあります AI とその関連テクノロジーについて詳しく学びたい個人が利用できます。
を見てみましょう 上位 10 社以上の AI アクセラレータ パフォーマンスの面で市場をリードすると期待されています。

AIにおけるトランスフォーマーとは何ですか?

トランスフォーマーは、「」という研究論文で紹介された深層学習モデルの一種です。注意が必要なすべてですこの論文は非常に高く評価され、わずか 2017 年間で 38,000 件以上の引用を獲得しました。

オリジナルの Transformer アーキテクチャは、導入前に人気を集めていたエンコーダ/デコーダ モデルの特定の形式です。 これらのモデルは主に次のものに依存しています。 LSTM およびリカレント ニューラル ネットワークのその他のバリエーション (RNN)、注意は利用されるメカニズムの XNUMX つにすぎません。 しかし、Transformer の論文は、注意が入力と出力の間の依存関係を確立する唯一のメカニズムとして機能する可能性があるという革新的なアイデアを提案しました。

AIにおけるトランスフォーマーとは何ですか?
クレジット: dominodatalab.com

Transformers のコンテキストでは、入力は一連のトークンで構成されます。これらのトークンは、自然言語処理の単語またはサブワードになります (NLP)。 サブワードは、語彙外の単語の問題に対処するために NLP モデルでよく使用されます。 エンコーダーの出力は、シーケンス全体の個別の埋め込みとともに、各トークンの固定次元表現を生成します。 デコーダーはエンコーダーの出力を受け取り、その出力としてトークンのシーケンスを生成します。

Transformer の論文が発表されて以来、次のような人気モデルが登場しました。 ベルト および GPT エンコーダ コンポーネントまたはデコーダ コンポーネントを使用して、元のアーキテクチャの側面を採用しています。 これらのモデル間の主な類似点は、自己注意メカニズムとフィードフォワード層を組み込んだ層アーキテクチャにあります。 Transformers では、各入力トークンは、入力シーケンス内の他のすべてのトークンとの直接の依存関係を維持しながら、レイヤーを介して独自のパスを移動します。 このユニークな機能により、コンテキスト トークン表現の並列かつ効率的な計算が可能になります。これは、RNN のような逐次モデルでは実現不可能な機能です。

この記事は Transformer アーキテクチャの表面をなぞっただけですが、その基本的な側面を垣間見ることができます。 より包括的な理解のために、元の研究論文または「The Illustrated Transformer」の投稿を参照することをお勧めします。

AI におけるエンコーダーとデコーダーとは何ですか?

エンコーダーとデコーダーという XNUMX つのモデルがあると想像してください。 一緒に働く チームのように。 エンコーダーは入力を受け取り、それを固定長ベクトルに変換します。 次に、デコーダはそのベクトルを取得し、それを出力シーケンスに変換します。 これらのモデルは、出力が入力とできるだけ一致するように一緒にトレーニングされます。

エンコーダーとデコーダーの両方にいくつかのレイヤーがありました。 エンコーダの各層には、マルチヘッド セルフ アテンション層と単純なフィードフォワード ネットワークという XNUMX つのサブ層がありました。 セルフ アテンション レイヤーは、入力内の各トークンが他のすべてのトークンとの関係を理解するのに役立ちます。 これらのサブレイヤーには、学習プロセスをよりスムーズにするための残留接続とレイヤー正規化もあります。

デコーダーのマルチヘッド 自意識層 エンコーダの動作とは少し異なります。 注目しているトークンの右側のトークンをマスクします。 これにより、デコーダは、予測しようとしているトークンの前にあるトークンのみを参照するようになります。 このマスクされたマルチヘッド アテンションは、デコーダが正確な予測を生成するのに役立ちます。 さらに、デコーダには、エンコーダからのすべての出力にわたるマルチヘッド アテンション レイヤである別のサブレイヤが含まれています。

これらの特定の詳細は、Transformer モデルのさまざまなバリエーションで変更されていることに注意することが重要です。 BERT や GPTたとえば、元のアーキテクチャのエンコーダまたはデコーダの側面に基づいています。

AI のアテンション レイヤーとは何ですか?

先ほど説明したモデル アーキテクチャでは、マルチヘッド アテンション レイヤーがモデル アーキテクチャを強力にする特別な要素です。 しかし、注意とは正確には何でしょうか? これは、質問を一連の情報にマッピングし、出力を与える関数と考えてください。 入力内の各トークンには、クエリ、キー、および値が関連付けられています。 各トークンの出力表現は、値の重み付き合計を取得することによって計算されます。各値の重みは、クエリとの一致度によって決まります。

トランスフォーマーは、スケーリングされたドット積と呼ばれる互換性関数を使用して、これらの重みを計算します。 Transformers における注目の興味深い点は、各トークンが独自の計算パスを通過し、入力シーケンス内のすべてのトークンの並列計算が可能になることです。 これは、各トークンの表現を個別に計算する複数のアテンション ブロックにすぎません。 これらの表現が結合さ​​れて、トークンの最終表現が作成されます。

リカレントネットワークやリカレントネットワークなどの他のタイプのネットワークと比較して、 畳み込みネットワーク、注目レイヤーにはいくつかの利点があります。 計算効率が高く、情報を迅速に処理できます。 また、接続性も高いため、シーケンス内の長期的な関係を把握するのに役立ちます。

AI の微調整モデルとは何ですか?

基礎モデル は、大量の一般データに基づいてトレーニングされた強力なモデルです。 その後、より小規模なセットでトレーニングすることで、特定のタスクに合わせて調整したり微調整したりできます。 ターゲット固有のデータ。 このアプローチは、 BERT紙、言語関連の機械学習タスクでは、Transformer ベースのモデルが優勢になるようになりました。

BERT のようなモデルの場合、入力トークンの表現は生成されますが、それ自体で特定のタスクを実行することはありません。 それらを便利にするために、追加の 神経層 が最上位に追加され、モデルはエンドツーエンドでトレーニングされます。これは微調整として知られるプロセスです。 ただし、 生成モデル ような GPT、アプローチは少し異なります。 GPT は、文内の次の単語を予測するようにトレーニングされたデコーダー言語モデルです。 膨大なWebデータを学習させることで、 GPT 入力クエリまたはプロンプトに基づいて適切な出力を生成できます。

にするには GPT もっと役立つ、 OpenAI 開発した研究者 指示するGPT、人間の指示に従うように訓練されています。 これは微調整によって実現されます GPT さまざまなタスクから人間がラベル付けしたデータを使用します。 指示するGPT 幅広いタスクを実行でき、次のような一般的なエンジンで使用されます。 ChatGPT.

微調整を使用して、最適化された基礎モデルのバリアントを作成することもできます。 特定の目的 言語モデリングを超えて。 たとえば、テキスト分類や検索取得などのセマンティック関連のタスク向けに微調整されたモデルがあります。 さらに、トランスエンコーダはマルチタスク内で微調整することに成功しました。 学習フレームワーク 単一の共有モデルを使用して複数のセマンティック タスクを実行します。

現在、微調整は、多数のユーザーが使用できるバージョンの基礎モデルを作成するために使用されています。 このプロセスには、入力に対する応答の生成が含まれます プロンプトと人間による結果のランク付け。 このランキングはトレーニングに使用されます。 報酬モデル、各出力にスコアを割り当てます。 人間のフィードバックによる強化学習 次に、モデルをさらにトレーニングするために使用されます。

なぜトランスフォーマーは AI の未来なのでしょうか?

強力なモデルの一種であるトランスフォーマーは、言語翻訳の分野で最初に実証されました。 しかし、研究者らは、Transformers を大量のラベルなしテキストでトレーニングし、その後、少数のラベル付きデータで微調整することで、さまざまな言語関連タスクに使用できることにすぐに気づきました。 このアプローチにより、Transformers は言語に関する重要な知識を得ることができました。

もともと言語タスク用に設計された Transformer アーキテクチャは、次のような他のアプリケーションにも適用されています。 画像の生成、オーディオ、音楽、さらにはアクションまで。 これにより、トランスフォーマーは社会のさまざまな側面を変える生成 AI の分野における重要なコンポーネントとなっています。

次のようなツールやフレームワークの利用可能性 パイトーチ および TensorFlow Transformer モデルの広範な採用において重要な役割を果たしました。 ハグフェイスのような企業は、 アイデアを中心としたビジネス オープンソースの Transformer ライブラリの商用化と、NVIDIA の Hopper Tensor コアのような特殊なハードウェアにより、これらのモデルのトレーニングと推論の速度がさらに高速化されました。

トランスフォーマーの注目すべきアプリケーションの XNUMX つは、 ChatGPT, がリリースしたチャットボット OpenAI。 それは信じられないほど人気になり、短期間で何百万ものユーザーに到達しました。 OpenAI のリリースも発表しました GPT-4、次のようなタスクで人間のようなパフォーマンスを達成できる、より強力なバージョンです。 医学試験と法律試験.

AI およびその幅広い応用分野における Transformers の影響は否定できません。 彼らは持っている やり方を変えた 私たちは言語関連のタスクにアプローチし、生成 AI の新たな進歩への道を切り開いています。

3 種類の事前トレーニング アーキテクチャ

Transformer アーキテクチャは、元々はエンコーダとデコーダで構成されていましたが、特定のニーズに基づいてさまざまなバリエーションを含めるように進化しました。 これらのバリエーションを簡単な言葉で分類してみましょう。

  1. エンコーダの事前トレーニング: これらのモデルは、完全な文または一節を理解することに重点を置いています。 事前トレーニング中、エンコーダーは入力文内のマスクされたトークンを再構築するために使用されます。 これは、モデルが全体的なコンテキストを理解することを学習するのに役立ちます。 このようなモデルは、テキストの分類、含意、抽出的質問応答などのタスクに役立ちます。
  2. デコーダの事前トレーニング: デコーダー モデルは、前のトークンのシーケンスに基づいて次のトークンを生成するようにトレーニングされます。 これらは自己回帰言語モデルとして知られています。 デコーダーのセルフアテンション層は、文内の特定のトークンの前のトークンにのみアクセスできます。 これらのモデルは、テキスト生成を伴うタスクに最適です。
  3. トランスフォーマー (エンコーダー/デコーダー) の事前トレーニング: このバリエーションでは、エンコーダ コンポーネントとデコーダ コンポーネントの両方を組み合わせます。 エンコーダーのセルフアテンション層はすべての入力トークンにアクセスできますが、デコーダーのセルフアテンション層は特定のトークンの前のトークンにのみアクセスできます。 このアーキテクチャにより、デコーダはエンコーダによって学習された表現を使用できるようになります。 エンコーダ/デコーダ モデルは、要約、翻訳、生成的質問応答などのタスクに適しています。

事前トレーニングの目標には、ノイズ除去や因果言語モデリングが含まれる場合があります。 これらの目標は、エンコーダのみまたはデコーダのみのモデルと比較して、エンコーダ-デコーダ モデルの方が複雑です。 Transformer アーキテクチャには、モデルの焦点に応じてさまざまなバリエーションがあります。 完全な文の理解、テキストの生成、またはその両方を組み合わせてさまざまなタスクを行う場合でも、Transformers はさまざまな言語関連の課題に柔軟に対応します。

事前トレーニング済みモデルの 8 種類のタスク

モデルをトレーニングするときは、モデルに学習のタスクや目標を与える必要があります。 自然言語処理 (NLP) には、モデルの事前トレーニングに使用できるさまざまなタスクがあります。 これらのタスクのいくつかを簡単な言葉で分解してみましょう。

  1. 言語モデリング (LM): モデルは文内の次のトークンを予測します。 文脈を理解し、一貫した文章を生成することを学びます。
  2. 因果言語モデリング: このモデルは、左から右の順序に従って、テキスト シーケンス内の次のトークンを予測します。 これは、一度に XNUMX 単語ずつ文章を生成するストーリーテリング モデルのようなものです。
  3. プレフィックス言語モデリング: このモデルは、メイン シーケンスから「プレフィックス」セクションを分離します。 プレフィックス内の任意のトークンに対応し、残りのシーケンスを自己回帰的に生成します。
  4. マスク言語モデリング (MLM): 入力文内の一部のトークンがマスクされ、モデルは周囲のコンテキストに基づいて欠落しているトークンを予測します。 空白を埋めることを学びます。
  5. 並べ替え言語モデリング (PLM): このモデルは、入力シーケンスのランダムな並べ替えに基づいて次のトークンを予測します。 さまざまな順序のトークンを処理する方法を学習します。
  6. ノイズ除去オートエンコーダー (DAE): このモデルは、部分的に破損した入力を受け取り、元の歪みのない入力を回復することを目的としています。 テキストのノイズや欠落部分を処理する方法を学習します。
  7. 置換トークン検出 (RTD): モデルは、トークンが元のテキストに由来するのか、生成されたバージョンに由来するのかを検出します。 置き換えられたトークンまたは操作されたトークンを識別することを学習します。
  8. 次文予測 (NSP): モデルは、トレーニング データから XNUMX つの入力文が連続セグメントであるかどうかを区別することを学習します。 文と文の関係が分かります。

これらのタスクは、モデルが言語の構造と意味を学習するのに役立ちます。 これらのタスクで事前トレーニングすることにより、モデルは特定のアプリケーション向けに微調整される前に言語を十分に理解できるようになります。

AI のトップ 30 以上のトランスフォーマー

名前 アーキテクチャの事前トレーニング仕事申し込みによって開発された
ALBERTエンコーダMLM/NSPBERTと同じでログイン
アルパカデコードLMテキストの生成と分類のタスクスタンフォード
アルファフォールドエンコーダタンパク質のフォールディング予測タンパク質の折りたたみディープマインド
人間アシスタント (こちらも参照)デコードLM一般的なダイアログからコードアシスタントまで。人間原理
バートエンコーダー/デコーダーDAEテキスト生成およびテキスト理解タスクFacebook
ベルトエンコーダMLM/NSP言語理解と質問応答でログイン
ブレンダーボット 3デコードLMテキスト生成およびテキスト理解タスクFacebook
咲くデコードLMテキスト生成およびテキスト理解タスクビッグサイエンス/ハグフェイス
ChatGPTデコードLMダイアログエージェントOpenAI
チンチラデコードLMテキスト生成およびテキスト理解タスクディープマインド
CLIPエンコーダ画像/オブジェクトの分類OpenAI
CTRLデコード制御可能なテキスト生成Salesforce
DALL-Eデコードキャプション予測テキストから画像へOpenAI
ダル-E-2エンコーダー/デコーダーキャプション予測テキストから画像へOpenAI
デベルタデコードMLMBERTと同じMicrosoft
意思決定トランスフォーマーデコード次の行動予測一般的な RL (強化学習タスク)Google/カリフォルニア大学バークレー校/FAIR
ダイヤルGPTデコードLMダイアログ設定でのテキスト生成Microsoft
蒸留BERTエンコーダMLM/NSP言語理解と質問応答抱き合う顔
DQ-BARTエンコーダー/デコーダーDAEテキストの生成と理解Amazon
ドリーデコードLMテキストの生成と分類のタスクデータブリックス株式会社
エルニーエンコーダMLM知識集約的な関連タスク中国のさまざまな機関
フラミンゴデコードキャプション予測テキストから画像へディープマインド
ギャラクティカデコードLM科学的 QA、数学的推論、要約、ドキュメント生成、分子特性予測、エンティティ抽出。Meta
グライドエンコーダキャプション予測テキストから画像へOpenAI
GPT-3.5デコードLM対話と一般的な言語OpenAI
GPT指示するデコードLM知識集約的な対話または言語タスクOpenAI
HTMLエンコーダー/デコーダーDAE構造化された HTML プロンプトを可能にする言語モデルFacebook
画像T5キャプション予測テキストから画像へでログイン
ラムダデコードLM一般的な言語モデリングでログイン
LLaMAデコードLM常識的推論、質問応答、コード生成、読解。Meta
ミネルバデコードLM数学的推論でログイン
パームデコードLM言語の理解と生成でログイン
ロベルタエンコーダMLM言語理解と質問応答カリフォルニア大学/グーグル
スズメデコードLMダイアログ エージェントと Q&A などの一般的な言語生成アプリケーションディープマインド
安定拡散エンコーダー/デコーダーキャプション予測テキストから画像へLMU ミュンヘン + Stability.ai + Eleuther.ai
ビキューナデコードLMダイアログエージェントカリフォルニア大学バークレー校、CMU、スタンフォード大学、カリフォルニア大学サンディエゴ校、MBZUAI

よくあるご質問

AI におけるトランスフォーマーは、 深層学習アーキテクチャ それにより、自然言語処理やその他のタスクが変化しました。 彼らは自己注意メカニズムを使用して文内の単語間の関係を捉え、人間のようなテキストを理解して生成できるようにします。

エンコーダとデコーダは、シーケンスツーシーケンス モデルで一般的に使用されるコンポーネントです。 エンコーダーはテキストや画像などの入力データを処理して圧縮表現に変換し、デコーダーはエンコードされた表現に基づいて出力データを生成し、言語翻訳や画像キャプションなどのタスクを可能にします。

アテンションレイヤーは、以下で使用されるコンポーネントです。 ニューラルネットワーク特にトランスフォーマーモデルで。 これらにより、モデルは入力シーケンスのさまざまな部分に選択的に焦点を当て、関連性に基づいて各要素に重みを割り当て、要素間の依存関係や関係を効果的に把握できるようになります。

微調整モデルとは、パフォーマンスを向上させ、そのタスクの特定の要件に適応させるために、特定のタスクまたはデータセットでさらにトレーニングされた事前トレーニング済みモデルを指します。 この微調整プロセスには、モデルのパラメーターを調整して予測を最適化し、ターゲット タスクにより特化したものにすることが含まれます。

トランスフォーマーは、自然言語処理、画像生成などの幅広いタスクで優れたパフォーマンスを実証しているため、AI の未来とみなされています。 長距離の依存関係を捕捉し、逐次データを効率的に処理する能力により、さまざまなアプリケーションに対する適応性と効果が高まり、生成 AI の進歩への道が開かれ、社会の多くの側面に革命が起こります。

AI で最も有名なトランスフォーマー モデルには、BERT (トランスフォーマーからの双方向エンコーダー表現) が含まれます。 GPT (Generative Pre-trained Transformer)、および T5 (Text-to-Text Transfer Transformer)。 これらのモデルは、さまざまな自然言語処理タスクで顕著な結果を達成しており、AI 研究コミュニティで大きな人気を集めています。

AI について詳しく読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories

Liskが正式にイーサリアムレイヤー2に移行し、コアv4.0.6を公開

by アリサ・デビッドソン
2024 年 5 月 08 日
ニュースレターにご参加ください。
最新ニュース

Liskが正式にイーサリアムレイヤー2に移行し、コアv4.0.6を公開

by アリサ・デビッドソン
2024 年 5 月 08 日

ボラティリティの中でビットコインETFへの機関投資家の意欲が高まる

13Fの提出書類による開示では、著名な機関投資家がビットコインETFに手を出していることが明らかになり、...

詳細を知りたい

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
Nexo、エコシステムに参加したユーザーに 12 万ドルの NEXO トークンを報酬として与える「ザ・ハント」を開始
マーケット ニュースレポート テクノロジー
Nexo、エコシステムに参加したユーザーに 12 万ドルの NEXO トークンを報酬として与える「ザ・ハント」を開始
2024 年 5 月 8 日
RevolutのRevolut X Exchangeはメーカー手数料ゼロと高度な分析で仮想通貨トレーダーを魅了
マーケット ソフトウェア ストーリーとレビュー テクノロジー
RevolutのRevolut X Exchangeはメーカー手数料ゼロと高度な分析で仮想通貨トレーダーを魅了
2024 年 5 月 8 日
Liskが正式にイーサリアムレイヤー2に移行し、コアv4.0.6を公開
ニュースレポート テクノロジー
Liskが正式にイーサリアムレイヤー2に移行し、コアv4.0.6を公開
2024 年 5 月 8 日
2024 年 7 月の新しいミームコイン: 暗号ファン向けの XNUMX つのおすすめ
ダイジェスト マーケット テクノロジー
2024 年 7 月の新しいミームコイン: 暗号ファン向けの XNUMX つのおすすめ
2024 年 5 月 8 日
CRYPTOMERIA LABS PTE。 株式会社。