CADMAS-CTX:マルチエージェント委任のための文脈的能力キャリブレーション

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文はマルチエージェントの委任を見直し、エージェントの有効な能力は静的なスキルプロファイルとして固定されるのではなく、タスクの文脈によって変動すると主張しています。
  • CADMAS-CTXを提案し、各エージェントについて粗い文脈バケットごとに階層化された文脈条件付きBeta事後分布を学習して、その部分のタスク空間での経験を捉えます。
  • 委任判断は事後分布の平均に不確実性ペナルティを加えたリスク配慮型スコアに基づき、証拠に基づいて十分に支持された場合にのみ、より適任のエージェントへルーティングすることを狙います。
  • 文脈付きバンディットの枠組みにより理論的保証を示し、文脈の異質性が十分にある場合に文脈を考慮したルーティングが静的ルーティングより累積レグレットを低減すると証明しています。
  • GAIAおよびSWE-benchでの実験では一貫した改善が示され(GAIA精度:0.442 vs 静的ベースライン0.381、SWE-bench Lite解決率:22.3%→31.4%)、アブレーションにより不確実性ペナルティが文脈タグ付けノイズへの頑健性を高めることが確認されています。

Abstract

追加のより強力で、より現実的な仮定の下でのマルチエージェント委任を見直します。すなわち、エージェントの能力はスキルレベルで固定されているのではなく、タスクの状況(コンテキスト)に依存します。コーディング・エージェントは短い単独編集では非常に優れている一方で、長いホライズンのデバッグでは失敗することがあります。プランナーは浅いタスクではうまく機能しても、連鎖する依存関係では劣化するかもしれません。このため、静的なスキルレベルの能力プロファイルは不均一な状況を平均化してしまい、体系的な誤委任を引き起こし得ます。そこで本論文では、状況(コンテキスト)に基づく能力キャリブレーションのための枠組みCADMAS-CTXを提案します。各エージェント、スキル、そして粗いコンテキスト・バケットごとに、CADMAS-CTXはタスク空間のその領域における安定した経験を捉えるベータ事後分布を維持します。委任は、事後分布の平均と不確実性に対するペナルティを組み合わせた、リスクを考慮したスコアによって行います。これにより、委任は「あるピアの方がより良い」と見込まれ、かつその判断が証拠によって十分に裏付けられる場合に限られます。本論文の貢献は3点です。第一に、階層的な状況(コンテキスト)付き能力プロファイルにより、静的なスキルレベルの自信を、コンテキスト条件付けされた事後分布に置き換えます。第二に、状況(コンテキスト)付きバンディット理論に基づき、十分なコンテキストの不均一性の下では、状況に応じたルーティングが静的なルーティングよりも累積レグレットが低いことを形式的に証明し、バイアスと分散のトレードオフを明確化します。第三に、GAIAおよびSWE-benchベンチマークで本手法を実験的に検証します。GPT-4oエージェントによるGAIAでは、CADMAS-CTXは0.442の精度を達成し、静的ベースラインの0.381およびAutoGenの0.354を、95%信頼区間が重ならない形で上回ります。SWE-bench Liteでは、解決率を22.3%から31.4%へと改善します。アブレーションでは、不確実性ペナルティが、コンテキストのタグ付けノイズに対する頑健性を向上させることが示されます。本結果は、状況(コンテキスト)に基づくキャリブレーションとリスクを考慮した委任が、静的なグローバルなスキル割り当てと比べて、マルチエージェントの協働を大きく改善することを示しています。