ORACLE-SWE:SWEエージェントにおけるオラクル情報シグナルの寄与を定量化する

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、SWEベンチマークから主要な「オラクル」情報シグナル(例:再現/回帰テスト、編集位置、実行コンテキスト、API利用)を分離・抽出するための統一的アプローチであるORACLE-SWEを提案し、それぞれの効果を個別に測定する。
  • 先行研究のギャップを埋めることを目的としており、中間情報が完全に利用可能であると仮定した場合に、各シグナルがどれほど寄与するのかを定量化する。エージェントのエンドツーエンド性能だけを調べるのではない。
  • さらに、本研究では、強力な言語モデルによって生成されたシグナルを抽出して基盤となるSWEエージェントに与え、性能向上を測定することで、これらのシグナルが現実の状況を近似できるかを検証する。
  • 得られた知見は、自律的なコーディング/エージェント型ソフトウェア工学システムに関する研究の優先順位付けを導くことを意図しており、どの文脈シグナルが最も重要かを明らかにする。
  • 全体として、本研究はSWEエージェントの評価を、制御可能な「シグナルレベル」のアブレーション/帰属(attribution)問題として捉え直し、エージェントの改善を駆動する要因をよりよく理解することを目指す。

要旨: 言語モデル(LM)エージェントにおける最近の進歩は、自動ソフトウェア工学(SWE)を大幅に改善してきました。先行研究では、さまざまなエージェント的ワークフローや学習戦略が提案されているほか、SWEタスクにおけるエージェント的システムの失敗モードを、いくつかの文脈情報のシグナル(再現テスト、回帰テスト、編集箇所、実行コンテキスト、APIの使用)に焦点を当てて分析してきました。しかし、全体としての成功に対して各シグナルがどの程度寄与しているのか、特に中間情報が完全に得られた場合の理想的な寄与は、十分に調べられていません。このギャップに対処するために、本研究ではOracle-SWEを導入します。これは、SWEベンチマークからオラクル情報シグナルを分離して抽出する統一的な手法であり、各シグナルがエージェントの性能に与える影響を定量化します。さらにパターンを検証するために、強力なLMによって抽出されたシグナルをベースとなるエージェントに提示したときの性能向上を評価し、実環境におけるタスク解決設定を近似します。これらの評価は、自律的コーディングシステムの研究の優先順位付けを導くことを目的としています。