端末エージェント向けの効率化を実現する自己進化型フレームワーク:観測(オブザベーション)の文脈圧縮による手法

arXiv cs.CL / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、長期・複数ターンで動作する端末中心のエージェントが、将来の判断を支えるために対話履歴へ生の環境フィードバックを保持しがちであり、その結果冗長性が増えてトークンコストがステップ数に対してほぼ二次的に膨らむと主張しています。
  • 観測圧縮を活用しつつも、端末環境が多様であるため固定プロンプトやヒューリスティックでは汎用化が難しい点を踏まえ、相互作用の軌跡から圧縮ルールを自動発見・改良する「TACO」を提案します。
  • TerminalBench(TB 1.0 / TB 2.0)および他4つの端末関連ベンチマークでの実験により、TACOが主要なエージェント・フレームワークや強力なバックボーンモデル全般で性能を一貫して向上させることが示されます。
  • MiniMax-2.5では、多くのベンチマークで性能を改善しつつ、トークンオーバーヘッドを約10%削減できました。
  • TerminalBenchにおいては、強力なエージェントモデルで1%〜4%の安定した向上に加え、同一トークン予算のもとで精度を約2%〜3%改善し、タスクに応じた自己進化型圧縮の汎用性が裏付けられています。

要旨: モデルの能力が向上するにつれ、研究はますます長期的で複数ターンの、端末中心のエージェント的タスクへとシフトしてきました。そこでは、将来の意思決定を支えるために、生の環境フィードバックがしばしば相互作用履歴として保持されます。しかし、このようなフィードバックを繰り返し保持すると、重大な冗長性が生じ、ステップ数に対して累積トークンコストが二次的に増大し、長期推論を妨げます。観測の圧縮はこの問題を緩和できますが、端末環境は多様であるため、ヒューリスティックに基づく、または固定プロンプト型の手法は一般化が難しくなっています。そこで本研究では、既存の端末エージェントのための相互作用軌跡から、圧縮ルールを自動的に発見し改良する、プラグアンドプレイの自己進化型「端末エージェント圧縮(TACO)」フレームワークを提案します。TerminalBench(TB 1.0 および TB 2.0)および、さらに4つの端末関連ベンチマーク(すなわち、SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench)での実験により、TACOが主要なエージェントフレームワークと強力なバックボーンモデルのいずれにおいても一貫して性能を向上させることを示します。MiniMax-2.5では、ほとんどのベンチマークにおいて性能を改善しつつ、トークンのオーバーヘッドを約10%削減します。TerminalBenchでは、強力なエージェント的モデルに対して1%〜4%の一貫した改善をもたらし、同じトークン予算のもとで精度をさらに約2%〜3%向上させます。これらの結果は、端末エージェント向けの自己進化型でタスクに適応した圧縮が有効であり、一般化できることを示しています。