アブストラクト: 大規模言語モデル(LLM)ベースのコーディング・エージェントは、制御されたベンチマークでは目を引く成果を上げるものの、実際のメンテナが却下するプルリクエストを日常的に生成してしまいます。根本原因は機能的な誤りではなく、オーガニシティ(自然さ)の欠如です。生成されたコードは、プロジェクト固有の慣習を無視し、内部APIによってすでに提供されている機能を重複し、長年の開発で蓄積された暗黙のアーキテクチャ制約に違反します。最新のリポジトリスナップショットをエージェントに見せるだけでは不十分です。そのスナップショットはコードベースの到達点(最終状態)を示しますが、その状態に至るまでに用いられた、リポジトリ固有の変更パターンは示しません。我々は、オンライン・リポジトリ・メモリによってこのギャップを埋めるフレームワーク「Learning to Commit(コミットを学習する)」を導入します。厳密な時系列分割を持つリポジトリが与えられたとき、エージェントは過去のコミットに対して教師ありコントラスト的反省を行います。すなわち、各歴史的な課題を無遠慮に解決しようと試み、その予測をオラクルの差分(diff)と比較し、そのギャップを、コーディングスタイル、内部APIの利用、そしてアーキテクチャ上の不変条件を捉えた、継続的に成長するスキル・再利用可能パターンの集合へと蒸留します。新しいPR記述が到着した際、エージェントはこれまでに蓄積されたスキルを条件として生成を行い、汎用的な事前学習の事前分布に基づくのではなく、プロジェクト自身の進化に根ざした変更を行います。評価は、スキル構築フェーズでは見ることができなかった、本当に将来の統合済みプルリクエストに対して行われます。評価は、機能的正しさ、コードスタイルの一貫性、内部API再利用率、そして修正領域の妥当性(modified-region plausibility)など、多面的な観点に及びます。豊富なコミット履歴を持つ、専門家が管理するリポジトリでの実験により、オンライン・リポジトリ・メモリが、保持した将来タスクにおいてオーガニシティ・スコアを効果的に向上させることが示されます。
Learning to Commit: オンラインリポジトリメモリによるオーガニックなプルリクエストの生成
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMのコーディングエージェントが実際のプルリクエストで失敗する主因が、基本的な機能的な誤りというよりも「オーガニシティの欠如」にあることを主張する。具体的には、慣習の不一致や、長年確立されてきたアーキテクチャ上の制約の違反などが挙げられる。
- 「Learning to Commit」を提案する。これは、最新のリポジトリスナップショットのみに依存するのではなく、オンラインリポジトリメモリを用いて過去のコミットからプロジェクト固有の変更パターンを学習する。
- この手法は、歴史的な課題を解決する試みを通じて、予測をオラクルの差分(oracle diffs)と比較し、コードのスタイル、内部APIの利用、アーキテクチャ上の不変条件(invariants)を捉えた再利用可能なパターンを蒸留する、教師ありのコントラスト型リフレクションを行う。
- 新しいPR記述に対しては、蓄積したスキルを用いてPR生成を条件付けすることで、生成される変更がリポジトリの進化をより反映し、メンテナの期待を満たしやすくする。
- 専門家が管理する、コミット履歴が豊富なリポジトリでの実験では、将来マージされたPRを評価し、正しさ、スタイルの一貫性、内部APIの再利用、変更領域の妥当性(modified-region plausibility)において、オーガニシティスコアが改善することを示す。
