マルチエージェントの解釈可能性を用いたマルチエージェントの共謀検出

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

環境分布のシフト下におけるマルチエージェントの共謀（欺瞞的な協調）を検出するためのベンチマーク「NARCBench」を導入し、単一エージェントの欺瞞プローブを超えるギャップを埋める。
5つのマルチエージェント向け解釈可能性／プロービング手法を提案し、各エージェントの欺瞞スコアを集約して、集団レベルの共謀シナリオを分類する。
対象分布内での性能は強い（AUROC 1.00）一方、構造的に異なるマルチエージェント設定やステガノグラフィーを用いたブラックジャック課題においてゼロショットの転移性能は低下（AUROC 0.60〜0.86）。
いずれのプロービング手法もすべての共謀タイプで最良にはならないことを見いだし、異なる共謀戦略が異なる活性空間の特徴（シグネチャ）を生むことを示唆する。
共謀に関する信号はトークンレベルに局在する可能性があるという予備的な証拠を提示する。すなわち、共謀しているエージェントは、パートナーのメッセージにエンコードされた部分を処理する際に活性のスパイクを示す。また、評価用のコード／データを公開する。

要旨: LLMエージェントがマルチエージェントシステムにますます導入されるにつれ、それらは標準的な形の人間による監督を回避しうる秘匿的な協調（covert coordination）のリスクをもたらします。モデルの活性化に対する線形プローブは単一エージェント設定における欺瞞の検出に有望であることが示されていますが、共謀（collusion）は本質的にマルチエージェントの現象であり、エージェント間の共謀を検出するために内部表現を用いることは未踏のままです。私たちは、環境分布のシフト下で共謀検出を評価するためのベンチマークNARCBenchを導入し、エージェントごとの欺瞞スコアを集約してグループレベルのシナリオ分類を行う5つのプロービング手法を提案します。私たちのプローブは、分布内（in-distribution）では1.00のAUROCを達成し、構造が異なるマルチエージェントのシナリオおよびステガノグラフィを用いたブラックジャックのカードカウント課題に対してゼロショットで転移した場合には0.60--0.86のAUROCを達成します。全ての共謀タイプにわたって単一のプロービング手法が優越することはないことが分かり、異なる形の共謀が活性化空間において異なる様相として現れることを示唆します。また、このシグナルがトークンレベルに局所化されている可能性についての予備的証拠も見いだしました。すなわち、共謀するエージェントの活性化は、パートナーのメッセージ内に符号化された部分を処理しているときに特にスパイクします。本研究は、マルチエージェント解釈可能性に向けた一歩となるものです。すなわち、単一モデルからマルチエージェント文脈へと白箱検査（white-box inspection）を拡張し、その検出にはエージェント間でシグナルを集約する必要がある領域に踏み込みます。これらの結果は、モデルの内部が、特にモデルの活性化にアクセスできる組織において、マルチエージェントの共謀検出のためにテキストレベル監視への補完的なシグナルを提供しうることを示しています。コードとデータは https://github.com/aaronrose227/narcbench で利用可能です。