推論タスク向けエージェント型フレームワーク:実証研究
arXiv cs.AI / 2026/4/21
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、22の代表的なエージェント型フレームワークを、BBH・GSM8K・ARCの3つの推論ベンチマークで統一的に評価し、推論精度・実行時間・計算コスト・ベンチマーク間の一貫性を比較した。
- 22のうち19フレームワークは3ベンチマークすべてを完了でき、そのうち12は安定した性能を示し、平均精度は約74.6〜75.9%、タスクあたりの実行時間は4〜6秒、タスクあたりのコストは約0.14〜0.18セントだった。
- 劣る結果の主因は、推論能力そのものの限界ではなくオーケストレーション(制御)上の問題であり、例えば文脈/メモリの無制御な増大(Camel)、抽出失敗による高コストなリトライの連鎖(Upsonic)、反復対話がプロンプト長を増やしてAPIクォータを枯渇させること(AutoGen, Mastra)などが挙げられている。
- 数学的推論の性能が特に低く、GSM8Kの平均精度は44.35%で、BBH(約89.8%)やARC(89.56%)に比べて大きく下回った。
- 本研究は、推論を多用するソフトウェアエンジニアリング用途では、フレームワーク選定においてオーケストレーションの質—特にメモリ制御、失敗時の扱い、コスト管理—を優先すべきだと結論づけている。




