要旨: 大規模言語モデル(LLMs)は自動プログラム修復(APR)に有望である一方、セキュリティ脆弱性に対する有効性はまだ十分に特徴づけられていない。 本研究は、Vul4Jベンチマークの64件のJava脆弱性に対して、LLM生成のセキュリティパッチ319件を分析した。三軸評価(コンパイル、PoVテストによるセキュリティ、テストスイートによる機能性)を用いて、分析の結果、パッチのうち完全な正確性を満たすものは24.8%にすぎず、51.4%はセキュリティと機能性の両方を満たさないことがわかった。支配的な失敗モードは意味論的な誤解である:LLMsは構文的に有効なコードを生成するが、修復戦略を誤って適用する。提案されたセキュリティ修復スコア(SRS)はこのギャップを定量化する。LLMsは機能性を保持する(平均0.832)一方でセキュリティには苦戦する(平均0.251)。脆弱性タイプは難易度を強く予測し、修正率は入力検証で0%、無限ループで45%まで及ぶ。これらの知見は、LLMによるセキュリティパッチは展開前に厳格な検証を要することを示している。
LLMsはなぜ失敗するのか: 自動セキュリティパッチ生成の失敗分析と部分的成功の測定
arXiv cs.AI / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、LLMが生成したセキュリティパッチは展開前に厳格な検証を必要とする、という結論に達した。