マルチエージェントシステムにおける情報汚染のトレースレベル分析

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、PDFやスプレッドシート、スライド資料などの異種アーティファクトを扱いながら推論するマルチエージェントのワークフローにおいて、不確実性が「情報汚染」としてエージェントの分解やルーティング判断を変え得ることを調査します。
  • 著者らは不確実性を制御可能な変数として扱い、アーティファクト由来の表現へ構造化した攪乱を注入し、固定されたワークフローを包括的なログ付きで実行して、トレースの分岐(trace divergence)によって汚染を測定します。
  • 3種類の言語モデルを用いた32のGAIAタスクで計614組の実行を行った結果、正解を復元できる一方でトレースは大きく分岐する場合や、トレースが類似していても誤答になる場合があることを示す「デカップリング」が見られます。
  • 汚染の現れ方として「静かな意味の破壊」「回復を伴う行動上の迂回」「構造的な破壊の併発」の3タイプを特定し、それぞれの制御フロー上の特徴(ルーティング変更、実行の延長、早期終了)に結び付けます。
  • さらに運用コストも評価し、一般的な検証ガードレールが汚染を検知できない理由を説明しつつ、汚染の分類体系と、エージェント間相互作用で汚染を検出・局所化するためのトレースベースの枠組みを提示します。

Abstract

不均一なアーティファクト(PDF、スプレッドシート、スライドデッキなど)に対する推論は、外部情報を反復的に抽出・変換・参照する、構造化されたエージェントのワークフローの中でますます頻繁に発生するようになっています。これらのワークフローにおいて、不確実性は単に入力品質の問題というだけではありません。分解やルーティングの判断を逸らし、中間状態を作り変え、質的に異なる実行の軌跡を生み出し得ます。本研究では、不確実性を制御変数として扱うことで、この現象を調べます。すなわち、アーティファクト由来の表現に対して構造化された摂動を注入し、包括的なロギングのもとで固定されたワークフローを実行し、計画、ツール呼び出し、そして中間状態におけるトレースの発散を通じて汚染(contamination)を定量化します。3種類の言語モデルを用いた32のGAIAタスクに対して614組の実行を行った結果、デカップリング(分離)が見られました。ワークフローは大きく分岐し得る一方で正しい答えを回復することもあれば、構造的には類似したまま誤った出力を生成することもあります。汚染の現れ方として、3つのタイプを特徴づけます。すなわち、(1)サイレントな意味的な破損、(2)回復を伴う挙動の迂回、(3)構造的な破壊とそれらの制御フロー上のシグネチャ(ルーティングの変更、実行の延長、早期終了)です。運用コストを測定し、よく使われる検証用のガードレールがなぜ汚染を遮断できないのかを特徴づけます。貢献は次のとおりです。(i)構造化されたワークフローにおける汚染の現れのための形式的な分類法、(ii)エージェント間の相互作用にわたって汚染を検出し局所化するためのトレースに基づく測定フレームワーク、(iii)対象を絞った検証、防御的設計、コスト制御への示唆を含む実証的なエビデンス、です。