リポジトリ規模のコード修復タスクにおけるフォールトローカライゼーション粒度の影響に関する研究

要旨: 自動プログラム修復は困難な課題となり得ます。特に、リポジトリ・レベルで複雑な問題を解決する場合には、問題の再現、フォールト・ローカライゼーション、コード修復、テスト、検証などがしばしば関わります。この規模の課題は、人気のGitHubリポジトリや、それらから派生したデータセットにおいてよく見られます。
リポジトリ・レベルのアプローチの一部では、ローカライゼーションと修復を別々のフェーズに分けています。この場合、フォールト・ローカライゼーション手法はローカライゼーションの粒度の点でさまざまです。より小規模なデータセットにおいて粒度の影響がある程度検討されているものの、すべてが、完全なフォールト・ローカライゼーションが仮定されるもとでコード修復をテストすることで、ローカライゼーション精度という別の問いからこの問題を切り離しているわけではありません。著者らの知る限り、リポジトリ規模の研究において、この仮定のもとで粒度を明示的に調査したものはなく、また粒度水準同士を粒度のみを孤立して系統的な実証的比較を行ったものもありません。
本研究では、Agentlessフレームワークのローカライゼーション・フェーズを改変して、グラウンドトゥルースのローカライゼーションデータを取得し、修復フェーズに投入されるプロンプトへ文脈として含めることで、これらの検証を行うための枠組みを提案します。さらに、当該構成のもとで、SWE-Bench-Miniデータセットに対する一般化として、関数レベルの粒度が、行レベルおよびファイルレベルに対して最も高い修復率をもたらすことを示します。しかし、より深い掘り下げにより、理想的な粒度は実際にはタスク依存である可能性が示唆されます。
本研究は、最先端の性能を向上させることを目的としているわけではなく、また結果をいかなる完全なエージェント型フレームワークと比較することも意図していません。むしろ、本研究では、リポジトリ規模のシナリオにおいてフォールト・ローカライゼーションが自動コード修復にどのように影響し得るかを調べるための、概念実証（proof of concept）を提示します。これに向けた予備的な知見を示し、2つのフェーズの関係に関するさらなる研究を促します。

リポジトリ規模のコード修復タスクにおけるフォールトローカライゼーション粒度の影響に関する研究

要点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer