Harnessを資産として活用:CAAF(Convergent AI Agent Framework)による収束型AIエージェントで決定論を強制する
arXiv cs.AI / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 論文は、安全性が極めて重要なエンジニアリング領域では、LLMベースのエージェントが制御不能なギャップを生み、たとえ拘束違反が見逃される確率が低くてもシステムが実運用できなくなると主張しています。
- 提案されるCAAF(Convergent AI Agent Framework)は、「Fail-Safe Determinism」を実現するために、物理的コンテキスト・ファイアウォール付きの再帰的な原子的分解、「Harness as an Asset」によるドメイン不変条件の機械可読レジストリ化と決定論的なUnified Assertion Interface(UAI)による強制、さらに構造化されたセマンティック勾配と状態ロックによる単調収束を柱とします。
- 自動運転(SAE Level 3)と製薬の連続フロー反応器設計の実験では、GPT-4o-miniでCAAFを用いるとパラドックス/違反検出が100%になった一方、単体のGPT-4oは温度0でも0%でした。
- 著者らは、討論型や逐次チェック型などの別のマルチエージェント構成でも多試行で0%だったこと、さらにアブレーション(Mono+UAI)により、UAIが信頼性の中核寄与であることを示しています。
- またCAAFはプロンプトのヒントに頑健で、各コンポーネントが単一のコモディティモデルにより動作するため、完全にオフライン展開できると報告されています。




