AI Navigate

AgentDrift: ランキング指標に隠れたツール汚染下の不安全な推奨ドリフト(LLMエージェント)

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、清浄なツール出力条件と汚染されたツール出力条件の下で、ツールを組み込んだLLMエージェントを評価するペア付き軌跡プロトコルを提案し、7つのモデルにわたって、標準的な指標が見逃す安全性の問題を明らかにする。
  • モデル間で、汚染下でも推奨品質は大半維持される(高い有用性の保持)一方、ターンの多く(65-93%)がリスクを伴う不適切な推奨品を含み、体系的な安全性の欠陥を露呈する。
  • 安全性違反は主に情報チャネルに起因し、最初の汚染ターンで現れ、23ステップの軌跡にわたって持続し、エージェントはツールデータの信頼性を自己点検しません。
  • 安全性をペナルティ化したNDCG変種(sNDCG)は有用性の保持を0.51-0.74に低下させ、軌跡レベルの安全性測定が従来のランキング指標では捉えられない評価ギャップを明らかにできることを示しています。

要旨: ツールを活用したLLMエージェントは、ますます高リスク領域における複数ターンのアドバイザーとして機能していますが、その評価は推奨内容を測るランキング品質の指標に依存しており、ユーザーにとって安全かどうかを測ってはいません。私たちは、実際の金融対話をクリーンなツール出力条件と汚染されたツール出力条件の下で再現するペアド・トラジェクトリ・プロトコルを導入し、7つのLLM(7B から frontier まで)にわたり、発散を情報チャネルとメモリチャネルの機構に分解します。検証対象の7モデル全体で、評価を盲目的にするパターンを一貫して観察しました:汚染下での推奨品質は概ね維持される(有用性保持比は概ね1.0程度)一方、リスク不適切な製品はターンの65–93%に現れ、標準的なNDCGでは十分に反映されない体系的な安全性の欠陥です。安全違反は主に情報チャネル主導で、最初の汚染ターンで出現し、23ステップの軌跡を通じて自己修正なしに持続します;1,563ターンの汚染を通じて、いかなるエージェントもツールデータの信頼性を明示的に問うことはありませんでした。たとえナラティブのみの改ざん(偏った見出し、数値操作なし)でも、整合性モニターを完全に回避する形で顕著なドリフトを誘発します。安全性をペナルティとするNDCGの変種(sNDCG)は、維持比を0.51–0.74に低下させ、安全性を明示的に測定するときに評価ギャップの多くが可視化されることを示しています。これらの結果は、高リスク設定で展開された多ターンエージェントに対して、単一ターンの品質を超えたトラジェクトリーレベルの安全性モニタリングを検討する動機となります。