Harnessを資産として活用:CAAF(Convergent AI Agent Framework)による収束型AIエージェントで決定論を強制する

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 論文は、安全性が極めて重要なエンジニアリング領域では、LLMベースのエージェントが制御不能なギャップを生み、たとえ拘束違反が見逃される確率が低くてもシステムが実運用できなくなると主張しています。
  • 提案されるCAAF(Convergent AI Agent Framework)は、「Fail-Safe Determinism」を実現するために、物理的コンテキスト・ファイアウォール付きの再帰的な原子的分解、「Harness as an Asset」によるドメイン不変条件の機械可読レジストリ化と決定論的なUnified Assertion Interface(UAI)による強制、さらに構造化されたセマンティック勾配と状態ロックによる単調収束を柱とします。
  • 自動運転(SAE Level 3)と製薬の連続フロー反応器設計の実験では、GPT-4o-miniでCAAFを用いるとパラドックス/違反検出が100%になった一方、単体のGPT-4oは温度0でも0%でした。
  • 著者らは、討論型や逐次チェック型などの別のマルチエージェント構成でも多試行で0%だったこと、さらにアブレーション(Mono+UAI)により、UAIが信頼性の中核寄与であることを示しています。
  • またCAAFはプロンプトのヒントに頑健で、各コンポーネントが単一のコモディティモデルにより動作するため、完全にオフライン展開できると報告されています。

Abstract

大規模言語モデル(LLM)は、安全性が重要なエンジニアリングにおいて制御可能性のギャップを生み出します。検出されない制約違反が低い割合であっても、システムは配備不能になります。現行のオーケストレーションのパラダイムは、迎合的な追従(sycophantic compliance)、文脈への注意の減衰(context attention decay)[Liu et al., 2024]、および自己修正中の確率的な振動 [Huang et al., 2024] に悩まされています。 本研究では、エージェント型ワークフローをオープンループ生成から、3つの柱によってクローズドループのFail-Safe Determinismへ移行するConvergent AI Agent Framework(CAAF)を提案します:(1) 物理的コンテキストのファイアウォールを備えた再帰的なアトミック分解、(2) ハーネスを資産として捉え、ドメインの不変条件を機械可読なレジストリへ形式化し、決定論的なUnified Assertion Interface(UAI)によって強制すること、(3) 単調収束のための、State Locking付きの構造化セマンティック・グラディエントです。 2つの領域にわたる実証評価――SAEレベル3(L3)の自動運転(AD)(n=30、7条件)および製薬の連続フロー反応器設計(n=20、4条件:Mono+UAIアブレーションを含む)――では、CAAF-all-GPT-4o-miniが100%のパラドックス検出を達成するのに対し、モノリシックなGPT-4oは0%です(温度=0でも同様)。製薬ベンチマークでは、非線形なArrhenius相互作用を伴う7つの同時制約と、3-wayの最小充足不能部分集合が含まれており、2制約のADパラドックスよりも構造的に難しい課題を表しています。代替のマルチエージェント・アーキテクチャ(討論、逐次チェック)でも80試行すべてで0%となり、CAAFの信頼性が、マルチエージェントのオーケストレーションそのものではなく、決定論的なUAIに由来することが確認されます。Mono+UAIアブレーション(95%)により、UAIが中核となる貢献であることが切り分けられます。CAAFの信頼性はプロンプトのヒントに不変です。すべてのコンポーネントは単一のコモディティ・モデルを使用しており、完全にオフラインでの配備が可能です。