ImproBR:LLMを使ったバグ報告(バグレポート)改善

arXiv cs.AI / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文では、ImproBRというLLMベースのパイプラインを提案し、再現手順(S2R)、観測された挙動(OB)、期待する挙動(EB)の各セクションに欠落や不明確さがある低品質なバグ報告を自動的に検出・書き換えると述べています。
  • ImproBRはハイブリッド方式で、微調整したDistilBERTの分類器、ヒューリスティックによるチェック、そしてGPT-4o miniを用いたセクション別のfew-shotプロンプトで制御するLLMアナライザを組み合わせます。
  • さらに、Minecraft Wikiのドメイン知識を根拠にしたRetrieval-Augmented Generation(RAG)を適用して精度を高めています。
  • Mojiraでの評価(難易度の高い実世界の139件のレポート)では、構造的完全性が7.9%から96.4%へ、実行可能なS2Rの割合が28.8%から67.6%へ、完全に再現可能なバグ報告が1から13へと大きく向上しました。
  • これらの結果は、LLMによるバグトリアージが、ユーザーと開発者の往復作業を減らし、報告をより早く実行可能な形にできる可能性を示しています。

要旨: バグ追跡システムはソフトウェア保守において重要な役割を果たしますが、開発者はしばしば、再現手順(Steps to Reproduce: S2R)、観測された挙動(Observed Behavior: OB)、期待される挙動(Expected Behavior: EB)といった必須の詳細を欠いた低品質なユーザー提出レポートに苦戦しています。そこで本研究では、欠落している、不完全な、または曖昧なS2R、OB、EBの各セクションに対処することで、バグレポートを自動的に検出し改善する、LLMベースのパイプラインであるImproBRを提案します。ImproBRは、微調整したDistilBERT、ヒューリスティック解析、LLMアナライザを組み合わせたハイブリッド検出器を用います。また、セクション固有のfew-shotプロンプトと、Minecraft Wikiのドメイン知識に基づくRetrieval-Augmented Generation(RAG)パイプラインにより導かれるGPT-4o miniを活用します。Mojiraで評価したところ、ImproBRは構造的な完全性を7.9%から96.4%へ改善し、実行可能なS2Rの割合を28.8%から67.6%へと2倍以上に引き上げ、完全に再現可能なバグレポートを139件の難易度の高い実世界レポートのうち1件から13件へ増加させました。