LLM プログラム: 複雑な状況でニューラル モデルを微調整するための新しい道
簡単に言えば
著者らは、LLM プログラムと呼ばれる別の道を提案しています。これは、コンテキスト内学習の発展と考えることができます。
LLM プログラムを通じて問題を解決する鍵は、問題の解決策を一連の単純なステップに分解する能力です。
LLM カスタマイズには、事前トレーニングされたベース モデルの微調整 (または追加トレーニング) とコンテキスト内学習の XNUMX つの主要な領域があります。 微調整には、これを実行して微調整されたモデルをホストするための大量のコンピューティング リソース、データ収集、およびインフラストラクチャが必要です。 一方、コンテキスト内学習には、思考連鎖 (CoT) など、問題解決の例を含む適切なプロンプトをコンパイルすることが含まれます。 ただし、モデルに送信できるテキストのサイズが限られていることや、複雑なマルチパス プロンプトではステップが相互に干渉し、モデルの注意が何かに集中する可能性があることなど、いくつかの困難もあります。現時点では気を散らすべきではありません。 著者らは、次のような代替案を提案しています。 LLM プログラム、これは文脈内学習の発展と考えることができます。
LLM はプログラムに組み込まれています (従来の プログラミング言語Python など)。 この外部コードは、状態を保存し、モデルを段階的に維持する役割を果たします。 これには、いくつかの大きな利点があります。プログラミング言語がこれに適応し、利用可能なコンテキストのサイズが増大し、ステップが互いに干渉しません。 LLM プログラムを通じて問題を解決する鍵は、問題の解決策を一連の単純なステップに分解する能力です。 このアプローチは、モデルが電卓や計算機などの外部ツールを使用していた以前の作品とは異なります。 コードインタープリタ 状態を維持するため。 このアプローチは、複雑で広がりのあるタスクをこのように記述できるため、テスト、デバッグ、品質の評価が容易になるため、優れています。
さらに、ステップ間の干渉がないため、LLM での作業が容易になります。 質問応答システムも新しいものではありません。 これらは LLM よりずっと前から存在していました。 質問に答えるというタスクは現在どのように解決されていますか?
サイトは頻繁に更新されるため、 フリーズモデル オプションではありません。 すぐに古くなってしまい、新製品に関する質問には答えられなくなります。 更新ごとにモデルを継続的に再トレーニングすることは現実的な選択肢ではありません。費用も時間もかかります。 代わりに、Web サイトのページは通常、インデックスが作成され、ある種のデータベースに格納され、多くの場合ベクター化されます。 ユーザーの要求に応じて、関連するドキュメントが取得され、コンテキストとして LLM に送信されます。
このようなパラダイムでは、問題は LLM プログラムを通じて自然に解決されます。 ボーナスとして、 可能になる コンテキストに完全には適合しない、より複雑なマルチパス ロジックを実装します。
でテスト済み StrategyQA データセット 二項分類問題が含まれており、その解決には多元的推論が必要です。 「黒海の最も深い場所に太陽光は差し込みますか?」のように。 答えるには、最大深さ (2 km) と光が水に浸透する深さ (1 km) を見つけて、結論を出す必要があります。 別の質問例を見てみましょう。「アリストテレスはラップトップを使用しましたか?」 この質問は、「ラップトップが発明されたとき、アリストテレスは生きていましたか?」ほど単純ではなく、一連の推論ステップを明示的にたどっていません。 そうです。 このデータセットは、そのようなシーケンスが暗黙的に存在する質問に焦点を当てています。 データセットには質問が 2,780 件しかありませんが、そのうち推論のすべてのステップを補強する証拠を含む段落がある質問は 918 件だけです。 現在の作業では、このサブセットに限定されています。 それ以外の場合は、事前トレーニング中にいくつかの事実を学習する LLM に依存する必要があります。
OPT-175B LLM は、デフォルトでは、指示に従うのがあまり得意ではありません。 命令や会話データを微調整する必要はありませんでした。 証拠に裏付けられた質問応答問題を解決するには、データ フィルタリング段階とツリー検索段階に分かれます。
フィルタリングの段階で、質問がある場合、開発者はすべての段落に目を通し、最も関連性の高い段落を選択します。 たとえば、数回のプロンプトを使用して、LLM に、特定の段落が質問に関連しているかどうか (はい/いいえ) で答えるように依頼します。 StrategyQA の 300 のサブセットでテストされ、各質問は関連性があるかどうかに関係なく、50/50 の段落と一致しました。 OPT-175B と text-davinci-002 には、 はるかに高い品質 ランダムなベースラインよりも: 最大 56%。 より高度な 11B Tk-命令 61.6% とあまり良くありません。
このアプローチの品質が低いため、質問の平均負対数尤度 (NLL) を本文の前の段落と組み合わせて考慮し、結果をランク付けする代替案がまとめられました。 各質問に 100 の段落があり、関連するのは 1 つだけであるデータセットで評価されました (したがって、ランダムな推測により 1% が得られます)。 トップ 79 の精度は 5%、トップ 93 の精度は XNUMX% でした。 この計算を行うには、通常、モデル自体にアクセスする必要がありますが、これは常に API で行われるわけではありません。
次に、アウトプットチェーンを構築する段階になります。 これは、質問がルートであるツリーを検索することによって行われます。各レベルには、次のステップを生成するためのコンテキストとして使用される可能性のある証拠を含む多くの段落があります。 ツリーを通る各パスは潜在的な出力チェーンです。 考えられるすべてのチェーンについて結論を出すのは非現実的であるため、利用可能なすべてのチェーンがランク付けされ、最高ランクのチェーンが展開されます。 これはビームサーチのバリエーションです。 応答が行われるか、最大許容ステップ数が経過すると、プロセスは停止します。
最も重要な詳細は、ツリー検索ステップでテストされた 918 つのランキング戦略です。 最初の戦略はチェーン全体の平均 NLL に基づいていますが、60 番目の戦略は段落 (P) の有無 (P)、質問ありとなし (Q) の NLL の平均差に注目します。 StrategyQA から入手可能な 66 の質問について、このアプローチにより、CoT のベースライン (81%) と比較して回答の質が大幅に向上しました。 どちらの検索オプションでも約 XNUMX% が得られます (デルタがわずかに高い戦略)。 ゴールデンファクトを提出すると品質はOPTの上限であるXNUMX%程度になります。 Darklang はどこかに行こうとしているようですが、方法は少し異なります。
この記事はテレグラムに基づいています 役職.
AI について詳しく読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。