AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた
さまざまな分野の 20 名を超える研究者が参加する共同作業により、急成長する分野が誕生しました。 表現工学 (担当者)。 この種の調査はこれが初めてではありませんが、著者らは説明的な洞察を提示し、重要なベンチマークを確立しています。
では、表現工学とは一体何なのでしょうか? それは、ニューラル ネットワークにはその名前にもかかわらず、秘密に包まれていない「隠された状態」があるという概念を中心に展開しています。 これらの状態は、アクセス可能、変更可能、および観察可能です (モデルの重みにアクセスできる場合)。 パラメータとは異なり、これらは特定の入力に対するネットワークの「反応」であり、特に次のような場合に当てはまります。 LLM、テキスト入力。 これらの隠された表現は、モデルの認知機能への窓のようなものであり、人間の脳とは明らかに異なる機能です。
著者らは認知科学と類似した探求の可能性を強調しています。 神経活性化の領域には、脳のニューロンに似た領域があり、意味が約束されています。 人間の脳の特定のニューロンがカナダや誠実さなどの概念に関連付けられているのと同じように、これらの活性化には洞察が隠されている可能性があります。
ここでの中心的なアイデアは、モデルを望ましい方向に導くために、これらの神経活動にどのように影響を与えることができるかを解読することです。 たとえば、「正直さ」を表すベクトルを正確に特定し、理論的にはモデルをこの方向に微調整することで、欺瞞的な出力が生成される可能性を減らすことが可能になります。 以前の実験「推論時間介入: 言語モデルから真実の答えを引き出す」は、このコンセプトの実用性を実証しました。
研究者らは現在の研究で、道徳、感情、無害性、暗記などのいくつかの領域を掘り下げている。 彼らは、LoRRA (Low-Rank Representation Adaptation) という形式のソリューションを提案しています。これは、約 100 個のサンプルからなる小さなラベル付きデータセットでのトレーニングを含む手法です。 各例には注釈が付けられ、虚偽などの属性を示します (ただし、プロンプトを使用する別のアプローチも存在します)。
結果は説得力があります。 LLAMA-2-70Bを超える GPT-4 TruthfulQA ベンチマークでは顕著な差があり、ほぼ 59% 高い精度 (約 69% と比較して XNUMX%) を達成しました。 さらに研究者らは、モデルの応答がさまざまな方向に変化することを示す多数の例を組み込み、モデルの多用途性と適応性を明らかにしています。
この先駆的なアプローチは、モデルの調整に向けた別の道を具体化すると同時に、モデルの解釈と制御に関する新しい視点を提供します。 これは有望なフロンティアであり、その継続的な進化への期待は明らかです。
実際の例を使ってさらに詳しく調べるには、専用 Web サイトにアクセスしてください。 AI-Transparency.org.
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。