推論タスク向けエージェント型フレームワーク:実証研究

arXiv cs.AI / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、22の代表的なエージェント型フレームワークを、BBH・GSM8K・ARCの3つの推論ベンチマークで統一的に評価し、推論精度・実行時間・計算コスト・ベンチマーク間の一貫性を比較した。
  • 22のうち19フレームワークは3ベンチマークすべてを完了でき、そのうち12は安定した性能を示し、平均精度は約74.6〜75.9%、タスクあたりの実行時間は4〜6秒、タスクあたりのコストは約0.14〜0.18セントだった。
  • 劣る結果の主因は、推論能力そのものの限界ではなくオーケストレーション(制御)上の問題であり、例えば文脈/メモリの無制御な増大(Camel)、抽出失敗による高コストなリトライの連鎖(Upsonic)、反復対話がプロンプト長を増やしてAPIクォータを枯渇させること(AutoGen, Mastra)などが挙げられている。
  • 数学的推論の性能が特に低く、GSM8Kの平均精度は44.35%で、BBH(約89.8%)やARC(89.56%)に比べて大きく下回った。
  • 本研究は、推論を多用するソフトウェアエンジニアリング用途では、フレームワーク選定においてオーケストレーションの質—特にメモリ制御、失敗時の扱い、コスト管理—を優先すべきだと結論づけている。

Abstract

近年、エージェント型フレームワークの進歩により、AIエージェントが複雑な推論や意思決定を行えるようになってきました。しかし、それらの推論性能、効率、実運用上の適切性を比較するためのエビデンスは、依然として限られています。このギャップに対処するため、BBH、GSM8K、ARCの3つの推論ベンチマークにおいて、広く用いられている22のエージェント型フレームワークを実証的に評価しました。これらのフレームワークは、2023年1月から2025年7月の間に収集された1,200のGitHubリポジトリから選定され、アーキテクチャ設計に基づいて分類(タクソノミー)されています。統一された設定の下で評価し、推論精度、実行時間、計算コスト、ならびにベンチマーク間の一貫性を測定しました。 結果として、22のうち19のフレームワークが3つのベンチマークすべてを完了しました。そのうち12は安定した性能を示し、平均精度は74.6-75.9%、タスクあたりの実行時間は4-6秒、タスクあたりのコストは0.14-0.18セントでした。より結果が劣る主な原因は、推論の限界というよりオーケストレーション(制御・統括)上の問題でした。例えば、Camelは文脈の制御不能な増大のため、11日経ってもBBHを完了できませんでした。一方でUpsonicは、繰り返しの抽出失敗が高コストなリトライを引き起こしたため、1日で1,434ドルを消費しました。AutoGenおよびMastraもまた、反復的なやり取りによってプロンプト長が増える一方で結果が改善されないことで、APIクォータを使い果たしました。 さらに、数学的推論に大きな低下が見られました。GSM8Kにおける平均精度は44.35%であり、BBHでは89.80%、ARCでは89.56%でした。総合すると、本研究は、推論集約型のソフトウェア工学タスクに対するエージェント型フレームワークの大規模な実証比較として初めてのものです。そして、フレームワークの選択では、特にメモリ制御、失敗時の取り扱い、コスト管理といったオーケストレーション品質を優先すべきであることを示しています。