推論タスク向けエージェント型フレームワーク：実証研究

arXiv cs.AI / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、22の代表的なエージェント型フレームワークを、BBH・GSM8K・ARCの3つの推論ベンチマークで統一的に評価し、推論精度・実行時間・計算コスト・ベンチマーク間の一貫性を比較した。
22のうち19フレームワークは3ベンチマークすべてを完了でき、そのうち12は安定した性能を示し、平均精度は約74.6〜75.9%、タスクあたりの実行時間は4〜6秒、タスクあたりのコストは約0.14〜0.18セントだった。
劣る結果の主因は、推論能力そのものの限界ではなくオーケストレーション（制御）上の問題であり、例えば文脈/メモリの無制御な増大（Camel）、抽出失敗による高コストなリトライの連鎖（Upsonic）、反復対話がプロンプト長を増やしてAPIクォータを枯渇させること（AutoGen, Mastra）などが挙げられている。
数学的推論の性能が特に低く、GSM8Kの平均精度は44.35%で、BBH（約89.8%）やARC（89.56%）に比べて大きく下回った。
本研究は、推論を多用するソフトウェアエンジニアリング用途では、フレームワーク選定においてオーケストレーションの質—特にメモリ制御、失敗時の扱い、コスト管理—を優先すべきだと結論づけている。

Abstract

近年、エージェント型フレームワークの進歩により、AIエージェントが複雑な推論や意思決定を行えるようになってきました。しかし、それらの推論性能、効率、実運用上の適切性を比較するためのエビデンスは、依然として限られています。このギャップに対処するため、BBH、GSM8K、ARCの3つの推論ベンチマークにおいて、広く用いられている22のエージェント型フレームワークを実証的に評価しました。これらのフレームワークは、2023年1月から2025年7月の間に収集された1,200のGitHubリポジトリから選定され、アーキテクチャ設計に基づいて分類（タクソノミー）されています。統一された設定の下で評価し、推論精度、実行時間、計算コスト、ならびにベンチマーク間の一貫性を測定しました。結果として、22のうち19のフレームワークが3つのベンチマークすべてを完了しました。そのうち12は安定した性能を示し、平均精度は74.6-75.9%、タスクあたりの実行時間は4-6秒、タスクあたりのコストは0.14-0.18セントでした。より結果が劣る主な原因は、推論の限界というよりオーケストレーション（制御・統括）上の問題でした。例えば、Camelは文脈の制御不能な増大のため、11日経ってもBBHを完了できませんでした。一方でUpsonicは、繰り返しの抽出失敗が高コストなリトライを引き起こしたため、1日で1,434ドルを消費しました。AutoGenおよびMastraもまた、反復的なやり取りによってプロンプト長が増える一方で結果が改善されないことで、APIクォータを使い果たしました。さらに、数学的推論に大きな低下が見られました。GSM8Kにおける平均精度は44.35%であり、BBHでは89.80%、ARCでは89.56%でした。総合すると、本研究は、推論集約型のソフトウェア工学タスクに対するエージェント型フレームワークの大規模な実証比較として初めてのものです。そして、フレームワークの選択では、特にメモリ制御、失敗時の取り扱い、コスト管理といったオーケストレーション品質を優先すべきであることを示しています。

AIエージェントで人事制度が耐えられない話

note

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

note

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

note

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

note

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

note

推論タスク向けエージェント型フレームワーク：実証研究

要点

Abstract

関連記事

AIエージェントで人事制度が耐えられない話

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

AIエージェントで人事制度が耐えられない話

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週 火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】