AgentFloor:小型のオープンウェイトモデルはツール使用の“はしご”のどこまで登れるのか?

arXiv cs.AI / 2026/5/4

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、永続的な制約下で、指示追従から長期計画までを6段階の能力ラダーで評価する、決定論的な30タスク・ベンチマーク「AgentFloor」を提案している。
  • 著者らは、オープンウェイト16モデル(0.27B〜32Bパラメータ)に加えてGPT-5も評価し、計16,542回のスコア付き試行を通じて「小型」モデルがエージェント業務のどこまで通用するかを検証した。
  • 結果として、実務上の境界が明確になった。多くのエージェントパイプラインで支配的な短期・構造化されたツール使用領域は、小型〜中型のオープンウェイトモデルでも十分に対応できる。
  • 総合的に最も強いオープンウェイトモデルはベンチマーク上でGPT-5に匹敵しつつ、実行コストと速度の面で大きく優位だった。ただし、長期タスク(長いステップにわたる協調と制約追跡の信頼性が必要)では、フロンティアモデルがなお優位を示した。
  • さらに、この差はスケールだけでは説明できず、失敗の仕方はモデル固有であり、狙いを定めた介入で改善する場合もある。著者らは、日常的なアクションは小型オープンウェイトへ、より深い計画と制御を要するタスクに限って大型フロンティアモデルを使うという設計原則を提案している。

要旨: 生成型エージェント・システムは、ユーザー1件の依頼に対して多くのモデル呼び出しを行い、その多くは短く、構造化され、定型的です。これにより、既存の評価では直接答えられていない実用的なルーティングの問題が生じます。すなわち、エージェントのワークフローのどの部分が本当に大規模な最先端の知能を必要とし、どの部分がより小さなモデルで処理できるのか、という問いです。私たちは、6段階の能力ラダーに整理された決定論的な30タスクのベンチマーク「AgentFloor」を導入します。ここでは、指示追従、ツール利用、多段の協調、永続的な制約下での長期ホライズン計画を含みます。私たちは、パラメータ数0.27Bから32Bまでの16のオープンウェイトモデルを評価し、さらに16,542回のスコア付け実行においてGPT-5も評価します。結果は、モデルに必要性が生じる明確な境界を示します。小型および中型のオープンウェイトモデルは、実際のエージェントのパイプラインを支配する短期ホライズンの構造化されたツール利用作業の大部分に対して、すでに十分であり、総合すると、最強のオープンウェイトモデルは本ベンチマークにおいてGPT-5と一致する性能を示しながら、実行コストと実行速度の面で大幅に優れています。このギャップが最もはっきりと現れるのは、長期ホライズンの計画タスクです。そこでは、多数のステップにわたり、持続的な協調と信頼性のある制約追跡が必要であり、なお最先端モデルが優位を保ちます。ただし、どちら側も強い信頼性には到達していません。また、この境界はスケールだけでは説明できないことも分かりました。いくつかの失敗は特定の介入に反応しますが、その効果は普遍的というよりモデル固有です。これらの知見は、エージェント・システムのための実用的な設計原則を示唆しています。すなわち、日常的な定型アクションの広い基盤にはより小さなオープンウェイトモデルを用い、本当に深い計画と制御を必要とする、より狭いクラスのタスクに限って大規模な最先端モデルを予約して使う、という原則です。私たちは、ベンチマーク、ハーネス、スイープの設定、および完全な実行コーパスを公開します。