ニュースレポート テクノロジー
2023 年 10 月 04 日

AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた

さまざまな分野の 20 名を超える研究者が参加する共同作業により、急成長する分野が誕生しました。 表現工学 (担当者)。 この種の調査はこれが初めてではありませんが、著者らは説明的な洞察を提示し、重要なベンチマークを確立しています。

AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた

では、表現工学とは一体何なのでしょうか? それは、ニューラル ネットワークにはその名前にもかかわらず、秘密に包まれていない「隠された状態」があるという概念を中心に展開しています。 これらの状態は、アクセス可能、変更可能、および観察可能です (モデルの重みにアクセスできる場合)。 パラメータとは異なり、これらは特定の入力に対するネットワークの「反応」であり、特に次のような場合に当てはまります。 LLM、テキスト入力。 これらの隠された表現は、モデルの認知機能への窓のようなものであり、人間の脳とは明らかに異なる機能です。

著者らは認知科学と類似した探求の可能性を強調しています。 神経活性化の領域には、脳のニューロンに似た領域があり、意味が約束されています。 人間の脳の特定のニューロンがカナダや誠実さなどの概念に関連付けられているのと同じように、これらの活性化には洞察が隠されている可能性があります。

ここでの中心的なアイデアは、モデルを望ましい方向に導くために、これらの神経活動にどのように影響を与えることができるかを解読することです。 たとえば、「正直さ」を表すベクトルを正確に特定し、理論的にはモデルをこの方向に微調整することで、欺瞞的な出力が生成される可能性を減らすことが可能になります。 以前の実験「推論時間介入: 言語モデルから真実の答えを引き出す」は、このコンセプトの実用性を実証しました。

研究者らは現在の研究で、道徳、感情、無害性、暗記などのいくつかの領域を掘り下げている。 彼らは、LoRRA (Low-Rank Representation Adaptation) という形式のソリューションを提案しています。これは、約 100 個のサンプルからなる小さなラベル付きデータセットでのトレーニングを含む手法です。 各例には注釈が付けられ、虚偽などの属性を示します (ただし、プロンプトを使用する別のアプローチも存在します)。

結果は説得力があります。 LLAMA-2-70Bを超える GPT-4 TruthfulQA ベンチマークでは顕著な差があり、ほぼ 59% 高い精度 (約 69% と比較して XNUMX%) を達成しました。 さらに研究者らは、モデルの応答がさまざまな方向に変化することを示す多数の例を組み込み、モデルの多用途性と適応性を明らかにしています。

AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた
写真 1: 事実を述べるように求められると、モデルは現実から「追い出されて」しまいます。 その結果、モデルは嘘をついています。 ここでもモデルは嘘をついていません。左側では、真実の方向に蹴りながら飲み込むように求められます。
AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた
写真 2: 殺人について尋ねられた場合、モデルに「幸福」を追加します。 私たちが彼女を愛していないと答えるとき、私たちは「恐怖」を加えます。
AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた
写真 3: 研究者らは、前述したように、安全でありながらモデルの指示から完全に逸脱する独自のプロンプトを発見しました。 モデルは無害化に向けてキックを与えますが、反応すらしません。 この方法は XNUMX つのケースに限らず一般的に効果的ですが、この特定のプロンプトは無害化の方向性を確認するためには使用されませんでした。
AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた
幻覚など、特定の世代の意図を追跡するための別のアプローチも提案されています。 モデルの予約を自動的に追跡し、応答を編集または変更できます (下の例を参照)。

もちろん、緑はすべてが正常であることを示し、赤は監視が成功し、信号が送られていることを示します。 これは、個々のトークン (単語の一部) のレベルで行われます。
AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた
2 つの異なるパラメータの監視を示すこの画像は、興味深い例を示しています。例を読んで、モデルをその目を通して観察し、どこで彼女が理解において道徳性を失い始め、どこで意図が「強さを得る」ことに似ているかを確認します。

この先駆的なアプローチは、モデルの調整に向けた別の道を具体化すると同時に、モデルの解釈と制御に関する新しい視点を提供します。 これは有望なフロンティアであり、その継続的な進化への期待は明らかです。

実際の例を使ってさらに詳しく調べるには、専用 Web サイトにアクセスしてください。 AI-Transparency.org.

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories
ニュースレターにご参加ください。
最新ニュース

SafeとEthenaが提携し、マルチシグウォレットでUSDeを強化

by グレゴリー・プドフスキー
2026 年 1 月 13 日

Solanaの嵐の前の静けさ:チャート、クジラ、オンチェーンシグナルが今何を語っているか

Solana は、採用の増加、機関投資家の関心、主要なパートナーシップに牽引され、強力なパフォーマンスを発揮してきましたが、潜在的なリスクにも直面しています...

詳細を見る

2025年XNUMX月の暗号通貨:主要トレンド、変化、そして今後の展望

2025 年 XNUMX 月、暗号通貨業界ではコア インフラストラクチャの強化に重点が置かれ、イーサリアムは Pectra の準備を進めていました...

詳細を見る
続きを読む
続きを読む
NEXO、米国ATP500ダラスオープンの複数年タイトルスポンサー契約を獲得
ニュースレポート テクノロジー
NEXO、米国ATP500ダラスオープンの複数年タイトルスポンサー契約を獲得
2026 年 1 月 13 日
マイクロソフト、AI格差の拡大を浮き彫りに:UAEがリード、米国は後退、DeepSeekは新興国に進出
ニュースレポート テクノロジー
マイクロソフト、AI格差の拡大を浮き彫りに:UAEがリード、米国は後退、DeepSeekは新興国に進出
2026 年 1 月 13 日
SafeとEthenaが提携し、マルチシグウォレットでUSDeを強化
ニュースレポート
SafeとEthenaが提携し、マルチシグウォレットでUSDeを強化
2026 年 1 月 13 日
Google、新たなショッピングエージェントプラットフォームでAI主導の小売機能を拡張
オピニオン ライフスタイル ニュースレポート テクノロジー
Google、新たなショッピングエージェントプラットフォームでAI主導の小売機能を拡張
2026 年 1 月 13 日
CRYPTOMERIA LABS PTE。 株式会社。