要旨: 大規模言語モデルに基づくアジェンティック(agentic)アプリケーションは、計画、行動の実行、環境からのフィードバックを含む多段階の対話ループにますます依存するようになっている。こうしたシステムは現在、規模をもって導入されているが、導入後に改善することは依然として難しい。エージェントの軌跡(trajectory)は大容量で非決定的であり、それぞれを、人手によるレビューであれ補助的なLLMによるレビューであれ、確認することは遅く、コスト的にも過大である。私たちは、アジェンティックな相互作用の軌跡を仕分け(トリアージ)するための、軽量でシグナル(signal)ベースの枠組みを提案する。提案手法では、稼働中の相互作用から安価で広く適用可能なシグナルを計算し、それらを構造化された属性として軌跡トリアージに付与することで、オンラインのエージェント挙動に影響を与えずに、有益である可能性の高い相互作用を特定する。シグナルは、相互作用(不一致、停滞、離脱、満足)、実行(失敗、ループ)、環境(消耗)の3領域にまたがる粗い粒度の分類法として整理されており、モデル呼び出しを行わずに計算できるよう設計されている。 au-bench における制御されたアノテーション研究では、ツール拡張エージェント評価のための広く用いられているベンチマークにおいて、シグナルベースのサンプリングが、ヒューリスティックによるフィルタリングでの 74% およびランダムサンプリングでの 54% に対して 82% の情報性(informativeness)率を達成することを示す。さらに、情報性のある軌跡ごとに 1.52x の効率向上が得られる。その利点は、報酬(reward)の階層やタスク領域をまたいでも頑健であり、シグナルが明白な失敗を単に過剰にサンプリングしているだけではなく、軌跡ごとの真に情報性の向上をもたらしていることを確認する。これらの結果は、軽量なシグナルがアジェンティックなシステムの実用的なサンプリング基盤として機能し得ることを示しており、嗜好データ(preference data)の構築および導入後の最適化へ向けた道筋を示唆する。
Signals:エージェント的インタラクションのための軌跡サンプリングとトリアージ
arXiv cs.AI / 2026/4/2
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、安価で広く適用可能な属性を用いて、エージェント的なLLMインタラクションの軌跡をトリアージしサンプリングするための、軽量なシグナルベースのフレームワークを提案する。これらの属性は、オンラインのエージェント挙動を変化させない。
- シグナルは、相互作用上の問題(不整合、停滞、離脱、満足など)、実行上の問題(失敗、ループなど)、環境条件(疲弊など)をカバーするタクソノミーとして整理され、追加のモデル呼び出しなしで計算される。
- τ-benchツール拡張型エージェントベンチマークに対する制御されたアノテーション研究において、シグナルベースのサンプリングは、ヒューリスティックによるフィルタリング(74%)やランダムサンプリング(54%)に比べて、情報量の高い率が82%に達する。
- 本手法は、情報量の高い軌跡あたりで1.52×の効率向上を提供し、さまざまな報酬水準やタスク領域にわたって優位性を維持する。これは、明白な失敗に過度に注目することで得られているのではなく、真に情報量が高いことを反映した改善であることを示唆する。
- 著者らは、これらのシグナルが、デプロイ後の最適化のためのサンプリング基盤として、またログされたエージェントのインタラクションから選好データを構築するための基盤として機能し得ると主張している。




