TRAJEVAL:コードエージェントの軌跡を分解してきめ細かな診断を行う

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コードエージェントの診断フレームワークであるTRAJEVALを提案し、実行軌跡を3つの解釈可能な段階に分解する:search(ファイルの特定)、read(関数の理解)、edit(修正のターゲティング)。
  • Pass@1のような粗い指標に依存するのではなく、エージェントの軌跡と参照パッチを比較することで、段階ごとに適合率と再現率を計算し、“どこで、なぜ”失敗したのかを特定できる失敗分析を可能にする。
  • 著者らは、3つのエージェント・アーキテクチャと7つのモデルにまたがる16,758本の軌跡を分析し、共通する非効率(必要以上に約22倍もの関数を調べる)に加えて、モデル固有の失敗モード(例:GPT-5は編集のターゲットを誤る一方、Qwen-32Bはファイル発見に失敗する)を見出す。
  • このフレームワークの診断は全体性能を予測でき(モデル単位のPass@1予測がMAE 0.87〜2.1%の範囲で可能)、かつ実行可能である。軌跡信号に基づくリアルタイムフィードバックにより、2つのSOTAモデルを2.2〜4.6ポイント改善し、コストを20〜31%削減する。
  • 全体として、TRAJEVALはコードエージェントの評価を、結果ベースのベンチマークから、メカニズム駆動の診断へと転換し、性能改善を直接導きうる。

要旨: コードエージェントは自律的にGitHubの課題を解決できますが、失敗した場合、現在の評価では「どこで」「なぜ」失敗したのかが見えません。Pass@1のような指標は、1回の実行全体を単一の二値的な結果に圧縮してしまうため、エージェントがどこで、なぜ誤ったのかを特定しにくくなっています。この制約に対処するために、我々はTRAJEVALという診断フレームワークを導入します。これはエージェントの軌跡(trajectory)を、解釈可能な3つの段階に分解します:探索(search:ファイルの位置特定)、読解(read:関数の理解)、編集(edit:修正のターゲティング)。各段階について、参照パッチと比較することで適合率(precision)と再現率(recall)を計算します。3つのエージェント・アーキテクチャと7つのモデルにまたがる16,758の軌跡を分析した結果、普遍的な非効率性(すべてのエージェントが必要な関数の約22倍もの関数を調べている)が見つかる一方で、失敗の様式はそれぞれ異なります。具体的には、GPT-5は関連するコードを見つけられるものの編集の標的を誤りますが、Qwen-32Bはファイル探索の段階で完全に失敗します。我々は、これらの診断が予測可能であり、モデル・レベルのPass@1予測を0.87〜2.1%のMAEで達成できることを検証しました。また実行可能でもあります。軌跡の信号に基づくリアルタイムなフィードバックにより、2つの最先端モデルが2.2〜4.6パーセンテージポイント向上し、同時にコストを20〜31%削減できます。これらの結果は、我々のフレームワークがエージェント挙動のよりきめ細かい分析を提供するだけでなく、診断信号を具体的な性能向上へと結び付けることを示しています。より広く言えば、TRAJEVALは、エージェント評価を結果ベースのベンチマークから、エージェントの成功と失敗をメカニズムに基づいて診断する方向へと変革します。

広告