CODESTRUCT: 構造化されたアクション空間上で動作するコードエージェント

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMベースのコードエージェントが失敗しがちな理由として、コードリポジトリを非構造のテキストとして扱い、編集に脆弱な文字列マッチングに依存している点を挙げています。
  • それを踏まえ、CODESTRUCTはリポジトリを構造化されたアクション空間として捉え直し、名前付きASTエンティティに対して操作を行うことで、readCodeおよびeditCodeを通じて構文検証された操作を用いることを提案します。
  • SWE-Bench Verifiedで6つのLLMを評価した結果、CODESTRUCTはPass@1精度を1.2〜5.0%向上させる一方で、多くのモデルでトークン使用量を12〜38%削減します。
  • 最大の改善は、テキストベースのインターフェースで無効または空のパッチを生成しやすいモデルで見られます。例えばGPT-5-nanoは、空パッチ失敗が46.6%から7.2%に低下することで、20.8%改善します。
  • CodeAssistBenchでの結果でも一貫した精度向上(+0.8〜4.4%)が確認され、最大33%のコスト削減の可能性も示されており、構造を意識したインターフェースが信頼性と効率を高めるという考えを支持しています。

要旨: LLMベースのコードエージェントは、リポジトリを非構造化テキストとして扱い、脆弱な文字列一致によって編集を適用するため、フォーマットのドリフトや曖昧なパターンによりしばしば失敗します。そこで我々は、コードベースを「構造化されたアクション空間」として捉え直し、エージェントがテキスト範囲ではなく、名前付きAST(抽象構文木)のエンティティ上で操作するようにすることを提案します。我々の枠組みであるCODESTRUCTは、完全な構文単位を取得するための readCode と、意味的なプログラム要素に対して構文検証済みの変換を適用するための editCode を提供します。6つのLLMに対してSWE-Bench Verifiedで評価したところ、CODESTRUCTは Pass@1 の精度を1.2-5.0% 向上させる一方で、ほとんどのモデルでトークン消費を12-38% 削減します。テキストベースのインターフェースでは有効なパッチを生成できない失敗が頻繁なモデルほど恩恵が大きく、GPT-5-nanoは空パッチによる失敗が46.6%から7.2%へと低下したことで 20.8% 向上します。CodeAssistBenchでは、最大33%までのコスト削減とともに、精度の改善が一貫して(+0.8-4.4%)観測されます。これらの結果は、構造を意識したインターフェースがコードエージェントに対してより信頼できる基盤を提供することを示しています。