|
セットアップ。同じコーディングエージェント(プランナーとしてClaude Opus 4.6、タスクモデルとしてGemini Flash 3)、同じ入力データ、すべての9タスクで同じ評価スクリプト:テスト生成(mutation score)、text-to-SQL(実行精度)、PDF抽出、契約抽出、PRレビュー、テキスト分類、few-shotプロンプト選択、LLMルーティング、要約の評価。独立変数:解決策を書き始める前に、CS文献に対して検索ツールを呼び出せるかどうか。タスクごとに1回だけ行い、リトライなし、出力の手動フィルタリングなし。 タスク選定。タスクは、MLに特化したシナリオではなく、コーディングエージェントが実際に直面する日常のエンジニアリング領域をカバーするよう選びました。選定基準:(1) 明確な定量メトリクス、(2) 天井性能より十分低いベースライン、(3) 既に標準的なデータセットが存在すること、(4) 無料のGemini APIキーで、各タスクあたり約10分程度で評価が再現可能であること。 評価手法。各タスクは、そのタスク標準の定量メトリクスを用います(test_generationにはmutation score、text_to_sqlには実行精度、抽出タスクにはラベル付きスパンに対するF1、分類には重み付きF1など)。タスクごとのスクリプトとデータセットの選択はリポジトリにあります。タスクごとに1ディレクトリ、入口は 検索セットアップ。「検索あり」のエージェントは3つのツール呼び出しにアクセスします: 比較可能性。両エージェントは同じタスク固有のユーザープロンプトを共有します。唯一のシステムプロンプトの違いは、検索エージェントのツール呼び出し文法です。予測とタスクごとのプロンプトはリポジトリでdiff可能です( 結果。
テスト生成のデルタは、エージェントがmutation-awareなプロンプトを発見したことによって生じました。用いられた手法はMuTAPとMUTGENで、これはターゲットのASTレベルの変異(mutation)のすべてを列挙し、その変異ごとに1つのテストが必要になります。ベースラインは、事前学習の事前分布(priors)から一般的なテストを書きました。 契約抽出のデルタは、BEAVER(セクションレベルの関連度スコアリング)とPAVE(抽出後のバリデーション)によるものです。どちらも2026年の手法で、エージェントの学習より後に登場しています。 実験で最も引用されている15件のうち10件が2025年以降に公開されており、これが検索が重要だという保守的な主張の根拠です。エージェントは、そのような手法をパラメトリックなメモリから到達できなかったはずです。 失敗モード。自己改善(self-refinement)がtext-to-SQLを損ねました(SQLの曖昧さに関する記述を読んだ後に、エージェントが正しいクエリを言い直してしまった)。提案された2つの手法(DyT、SeeDNorm)は、自動研究(autoresearch)の実験においてアーキテクチャ非互換であり、破棄されました。検索はより良い選択肢を提示しますが、勝ちが保証されるわけではありません。 再現性。すべてのプロンプト、エージェントコードの各行、すべての予測ファイル、すべての評価スクリプトがリポジトリにあります。各タスクのディレクトリには、手法を説明するREADMEがあり、さらに リポジトリ:https://github.com/paperlantern-ai/paper-lantern-challenges 詳細なタスク別考察を含む書き下ろし記事:https://www.paperlantern.ai/blog/coding-agent-benchmarks コメント欄で追加の設計上の選択について共有できるので、よければ。 [link] [comments] |
コーディングエージェントのリトリーバル強化(RAG)による手法選択を測るオープンソース9タスク・ベンチマーク
Reddit r/MachineLearning / 2026/4/25
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 記事では、コーディングエージェントを9つの一般的なソフトウェアタスクで評価し、「リトリーバル強化した手法選択あり/なし」を比較するオープンソースのベンチマークスイート(“paper-lantern-challenges”)が紹介されています。
- タスクごとに0.010〜0.320の範囲で改善(デルタ)が見られるとしており、条件をタスク間で揃えて評価している点が特徴です。
- ベンチマークは再現性を重視しており、リポジトリにプロンプト、エージェントのコードパス、予測出力が含まれ、タスクごとの評価スクリプトとREADMEも用意されています。
- 設定ではプランナー(Claude Opus 4.6)とタスクモデル(Gemini Flash 3)を固定し、テスト生成、テキストto SQL、文書/契約の抽出、PRレビュー、分類、プロンプト選択、ルーティング、要約などの要素を対象にしています。
- リトリーバルはCS文献向けの3種類のツール呼び出し(explore_approaches、deep_dive、compare_approaches)として実装され、セッション間のキャッシュで繰り返しの待ち時間を抑えています。
- 著者らは、明確な評価指標があること、基準(ベースライン)の性能が天井に達しすぎないこと、標準的なデータセットがあること、無料Gemini APIキーで1タスクあたり約10分で評価できること、という基準でタスクを選定しています。




