コンセンサストラップ:トークンレベルの協調で敵対的多数からマルチエージェントLLMを救う

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチエージェントLLMにおける応答レベルの集約(例:多数決)が、腐敗したエージェントが局所的な多数を形成できる場合に、敵対的なプロンプトインジェクションへ構造的に脆弱であることを示しています。
  • 多数決が失敗する理由として、完全に形成された回答を集約するため、中間の推論が誤っていてもそれを検出・修正できない点を指摘しています。
  • 著者らは、Token-Level Round-Robin(RR)協調を提案します。これは、共有された自己回帰コンテキスト内でエージェントが交互にトークン生成し、論理を相互に織り込む方式です。
  • 動力学システムとして形式化し、トークンレベルのインタリービングが集約を「脆い線形の投票和」から「非線形の演算子積」へと変えることを証明しています。
  • 実験では、多数決(MAJ)は腐敗エージェントが閾値を超えると崩壊する一方で、RRはその先でも高い精度を維持することが示されています。

要旨: 複数エージェントの大規模言語モデル(LLM)アーキテクチャは、推論の上限を引き上げるために、多数決(MAJ)などの応答レベルの集約にますます依存しています。しかし、オープンな環境では、エージェントは標的型のプロンプトインジェクションのような、巧妙な文脈汚染に対して非常に脆弱です。私たちは、現在の複数エージェントシステムにおける重大な構造的脆弱性を明らかにします。すなわち、応答レベルの集約は、汚染されたエージェントが局所的な多数派を形成すると崩壊するという点です。投票は完全に形成された結論を集約するため、誤った中間ロジックを見抜けません。この体系的な制限を克服するために、共有された自己回帰(auto-regressive)文脈の中で、エージェントが生成を順番にインターリーブ(交互挿入)する Token-Level Round-Robin(RR)協調を提案します。私たちはこのプロセスを離散時間の動力学的システムとして形式化し、トークンレベルのインターリーブが、最終投票の脆い数え上げ(線形和)から、動的で織り込まれた論理の連鎖(非線形の演算子積)へと集約を移行させることを証明します。この理論的観点により、汚染されたエージェントが多数派を形成している場合でも、正直なモデルの回復的な引力が敵対的な汚染を上回り得ることを証明します。多様な推論ベンチマークにわたって徹底的な実証評価を行い、MAJが汚染されたエージェントが多数派に達すると崩壊する一方で、RRはこの重要なしきい値を大きく超えても頑健な精度を維持することを示します。