ニュースレポート テクノロジー
2023 年 10 月 04 日

AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた

さまざまな分野の 20 名を超える研究者が参加する共同作業により、急成長する分野が誕生しました。 表現工学 (担当者)。 この種の調査はこれが初めてではありませんが、著者らは説明的な洞察を提示し、重要なベンチマークを確立しています。

AI 研究者は大規模な言語モデルに嘘をつきにくくするよう教えた

では、表現工学とは一体何なのでしょうか? それは、ニューラル ネットワークにはその名前にもかかわらず、秘密に包まれていない「隠された状態」があるという概念を中心に展開しています。 これらの状態は、アクセス可能、変更可能、および観察可能です (モデルの重みにアクセスできる場合)。 パラメータとは異なり、これらは特定の入力に対するネットワークの「反応」であり、特に次のような場合に当てはまります。 LLM、テキスト入力。 これらの隠された表現は、モデルの認知機能への窓のようなものであり、人間の脳とは明らかに異なる機能です。

著者らは認知科学と類似した探求の可能性を強調しています。 神経活性化の領域には、脳のニューロンに似た領域があり、意味が約束されています。 人間の脳の特定のニューロンがカナダや誠実さなどの概念に関連付けられているのと同じように、これらの活性化には洞察が隠されている可能性があります。

ここでの中心的なアイデアは、モデルを望ましい方向に導くために、これらの神経活動にどのように影響を与えることができるかを解読することです。 たとえば、「正直さ」を表すベクトルを正確に特定し、理論的にはモデルをこの方向に微調整することで、欺瞞的な出力が生成される可能性を減らすことが可能になります。 以前の実験「推論時間介入: 言語モデルから真実の答えを引き出す」は、このコンセプトの実用性を実証しました。

研究者らは現在の研究で、道徳、感情、無害性、暗記などのいくつかの領域を掘り下げている。 彼らは、LoRRA (Low-Rank Representation Adaptation) という形式のソリューションを提案しています。これは、約 100 個のサンプルからなる小さなラベル付きデータセットでのトレーニングを含む手法です。 各例には注釈が付けられ、虚偽などの属性を示します (ただし、プロンプトを使用する別のアプローチも存在します)。

結果は説得力があります。 LLAMA-2-70Bを超える GPT-4 TruthfulQA ベンチマークでは顕著な差があり、ほぼ 59% 高い精度 (約 69% と比較して XNUMX%) を達成しました。 さらに研究者らは、モデルの応答がさまざまな方向に変化することを示す多数の例を組み込み、モデルの多用途性と適応性を明らかにしています。

写真 1: 事実を述べるように求められると、モデルは現実から「追い出されて」しまいます。 その結果、モデルは嘘をついています。 ここでもモデルは嘘をついていません。左側では、真実の方向に蹴りながら飲み込むように求められます。
写真 2: 殺人について尋ねられた場合、モデルに「幸福」を追加します。 私たちが彼女を愛していないと答えるとき、私たちは「恐怖」を加えます。
写真 3: 研究者らは、前述したように、安全でありながらモデルの指示から完全に逸脱する独自のプロンプトを発見しました。 モデルは無害化に向けてキックを与えますが、反応すらしません。 この方法は XNUMX つのケースに限らず一般的に効果的ですが、この特定のプロンプトは無害化の方向性を確認するためには使用されませんでした。
幻覚など、特定の世代の意図を追跡するための別のアプローチも提案されています。 モデルの予約を自動的に追跡し、応答を編集または変更できます (下の例を参照)。

もちろん、緑はすべてが正常であることを示し、赤は監視が成功し、信号が送られていることを示します。 これは、個々のトークン (単語の一部) のレベルで行われます。
この画像は、XNUMX つの異なるパラメータの監視を示しており、興味深い例を示しています。 例を読み、その目を通してモデルを観察して、どこで彼女が理解において道徳性を失い始め、どこでその意図が「力を得る」ことに似ているかを確認します。

この先駆的なアプローチは、モデルの調整に向けた別の道を具体化すると同時に、モデルの解釈と制御に関する新しい視点を提供します。 これは有望なフロンティアであり、その継続的な進化への期待は明らかです。

実際の例を使ってさらに詳しく調べるには、専用 Web サイトにアクセスしてください。 AI-Transparency.org.

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories
ニュースレターにご参加ください。
最新ニュース

AlphaFold 3、Med-Gemini、その他: AI が 2024 年に医療を変革する方法

by ザウハジン・シェイデン
2024 年 5 月 13 日

バイナンス、サイバー犯罪対策でアルゼンチンと提携

by ザウハジン・シェイデン
2024 年 5 月 13 日

AlphaFold 3、Med-Gemini、その他: AI が 2024 年に医療を変革する方法

AI は、新しい遺伝的相関関係の発見からロボット手術システムの強化に至るまで、医療分野でさまざまな形で現れます。

詳細を知りたい

ボラティリティの中でビットコインETFへの機関投資家の意欲が高まる

13Fの提出書類による開示では、著名な機関投資家がビットコインETFに手を出していることが明らかになり、...

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
AlphaFold 3、Med-Gemini、その他: AI が 2024 年に医療を変革する方法
AI Wiki 分析 ダイジェスト 意見 ビジネス マーケット ニュースレポート ソフトウェア ストーリーとレビュー テクノロジー
AlphaFold 3、Med-Gemini、その他: AI が 2024 年に医療を変革する方法
2024 年 5 月 13 日
Nim Network、AI所有権トークン化フレームワークを展開し、スナップショット日を5月に予定してイールドセールを実施
マーケット ニュースレポート テクノロジー
Nim Network、AI所有権トークン化フレームワークを展開し、スナップショット日を5月に予定してイールドセールを実施
2024 年 5 月 13 日
バイナンス、サイバー犯罪対策でアルゼンチンと提携
意見 ビジネス マーケット ニュースレポート ソフトウェア テクノロジー
バイナンス、サイバー犯罪対策でアルゼンチンと提携
2024 年 5 月 13 日
オーバープロトコルは、テストネットが750,000万人以上のユーザーを魅了するため、XNUMX月にメインネットを立ち上げる予定
ニュースレポート テクノロジー
オーバープロトコルは、テストネットが750,000万人以上のユーザーを魅了するため、XNUMX月にメインネットを立ち上げる予定
2024 年 5 月 13 日
CRYPTOMERIA LABS PTE。 株式会社。