Collaborative Agent Reasoning Engineering(CARE):専門家・開発者・ヘルパーエージェントの3者によるAIエージェント設計手法

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • CAREは、再利用可能なアーティファクトを用いて、科学領域でLLMエージェントを開発するための規律ある段階ゲート型の手法を提案しており、場当たり的な試行錯誤とは対照的です。
  • SME(専門家)、開発者、LLMベースのヘルパーエージェントという3者のワークフローを用い、ヘルパーが非形式的な領域の意図を、定められたゲートで人が承認できる形の構造化された仕様へと変換します。
  • CAREは、インタラクション要件、推論ポリシー、評価基準などの具体的なアーティファクトを通じて、エージェントの行動・グラウンディング・ツールオーケストレーション・検証方法を規定します。
  • LLMの性能が領域ごとに不均一である「jagged technological frontier」を、初心者と専門家の間で領域制約や検証実務をつなぐことで乗り越えることを狙っています。
  • 科学分野のユースケースで、このアーティファクト駆動かつ段階ゲート型の手法により、開発効率と複雑クエリ性能が測定可能に改善したと報告されています。

Abstract

本稿では、科学分野における大規模言語モデル(LLM)エージェントを工学的に設計するための、規律ある手法であるCollaborative Agent Reasoning Engineering(CARE)を提示する。場当たり的な試行錯誤とは異なり、CAREは、再利用可能な成果物と、段階的でゲート管理されたフェーズによって、振る舞い、根拠付け、ツールのオーケストレーション、検証を規定する。この手法は、専門家(Subject-Matter Experts: SMEs)、開発者、およびLLMベースの補助エージェントからなる三者ワークフローを用いる。これらの補助エージェントは、円滑化のための基盤インフラとして機能し、非形式的な領域意図を、人間の承認のために、定められたゲートでレビュー可能な形へと構造化された仕様に変換する。CAREは、LLMの性能が不均一であることに特徴づけられる「でこぼこした技術フロンティア」に対処し、領域の制約や検証実務に関して、初心者のアナリストと専門家のアナリストの間にあるギャップを埋める。相互作用要件、推論ポリシー、評価基準を含む具体的な成果物を生成することで、CAREはエージェントの振る舞いを、仕様化可能で、テスト可能で、保守可能であることを保証する。科学的なユースケースから得られた評価結果は、この段階的で成果物駆動の手法が、開発効率および複雑クエリ性能において測定可能な改善をもたらすことを示している。