要旨: LLMベースのコーディングにおける焦点が、静的な単一ステップのコード生成から、ツールや環境との多段階のエージェント的インタラクションへ移るにつれて、どのようなタスクがエージェントにとって難しくなるのか、またその理由は何かを理解することがますます困難になっています。これは、現状の実務によってさらに複雑化しています。すなわち、エージェントの性能は通常、ベンチマークにおける集計された合格率によって測定されますが、単一の数値指標は、ベンチマーク内に含まれるタスクの多様性を見えなくしてしまいます。我々は、エージェント的コーディングの体制に合わせて、個々のタスクで成功または失敗を予測するための枠組みを提案します。我々のアプローチは、タスクから抽出した、問題(issue)文、リポジトリの文脈、解決策、テストケースを含む豊富な特徴量によって、項目応答理論(IRT)を拡張し、エージェントの能力をLLM能力とスキャフォールド能力の2つの成分に分解する新しい手法を導入します。このパラメータ化により、不均一なリーダーボード間で評価データを集約し、未見のベンチマークに対する、ならびに未見のLLM-スキャフォールドの組み合わせに対するタスクレベルの性能を正確に予測することが可能になります。提案手法は、計算コストの高いエージェント評価を実行せずに、新しいタスクの難易度をより適切に調整できるベンチマーク設計者にとって、実用上の有用性を持ちます。
エージェント・サイコメトリクス:エージェント型コーディングベンチマークにおけるタスクレベルのパフォーマンス予測
arXiv cs.AI / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMによるコーディングが、エージェント型で複数ステップのツール使用を行う方向へ進むにつれて、集約されたベンチマークの合格率だけでは、エージェントにとってどの特定のタスクが難しいのかを説明するのに不十分になると主張する。
- 問題文(issue statement)、リポジトリ文脈、候補となる解決策、テストケースから得られる特徴量を用いてItem Response Theory(IRT)を拡張し、タスクレベルのパフォーマンス予測の枠組みを提案する。
- 本手法は、エージェントの全体的な能力を「LLM能力」と「スキャフォールド(scaffold)能力」の2つの構成要素に分解することで、エージェントが成功または失敗する理由をより粒度高くモデル化できるようにする。
- このようにパラメータ化することで、異種のリーダーボードにまたがる結果を集約し、未見のベンチマークや未見のLLM–スキャフォールドの組み合わせにおける性能を予測できる。
- 著者らは、ベンチマーク設計者にとって実用的価値があると主張しており、計算コストの高いエージェント評価への依存を抑えながら、新しいタスクの難易度キャリブレーションを可能にする。

